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方针 一 一 
腹 却 


时 间 回 到 2011 年 4 月 ， 当 时 我 正在 编写 一 个 用 户头 系 模 块 ， 这 个 模 
0 
用 户 。 


举 个 例子 ， 假 设 huangz 关 注 了 peter、tom、jack 三 个 用 户 ， 而 john 关 
注 了 peter、tom、bob、david 四 个 用 户 ， 那 么 当 huangz 访 问 john 的 页 面 
时 ， 共 同 关 注 功 能 就 会 计算 并 打印 出 类 似 “ 你 跟 john 都 关注 了 peter 和 
tom” 这 样 的 信息 。 


从 集合 计算 的 角度 来 看 ， 共 同 关 注 功能 本 质 上 就 是 计算 两 个 用 户 关 
注 集合 的 交集 ， 因 为 交集 这 个 概念 是 如 此 的 常见 ， 所 以 我 很 目 然 地 认为 
共同 关注 这 个 功能 可 以 很 容易 地 实现 ， 但 现实 却 给 了 我 当头 一 棒 : 我 所 
使 用 的 关系 数据 库 并 不 直接 文 持 交集 计算 操作 ， 要 计算 两 个 集合 的 区 
集 ， 除 了 需要 对 两 个 数据 表 执 行 合并 (join) 操作 之 外 ， 还 需要 对 合并 
ee 
和 。 


古人 否 存在 直接 文 持 集合 操作 的 数据 库 呢 ? 带 着 这 个 疑问 ， 我 在 搜索 
引擎 上 面 进行 查找 ， 并 最 终 发 现 了 Redis。 在 我 看 来 ，Redis 正 是 我 想 要 
找 的 那 种 数据 库 一 一 它 内 置 了 集合 数据 类 型 ， 并 支持 对 集合 执行 交集 、 
并 集 、 差 集 等 集合 计算 操作 ， 其 中 的 交集 计算 操作 可 以 直接 用 于 实现 我 
想 要 的 共同 关注 功能 。 


得 益 于 Redis 本 号 的 简单 性 ， 以 及 Redis 手 册 的 详尽 和 完善 ， 我 很 快 
学 会 了 怎样 使 用 Redis 的 集合 数据 类 型 ， 并 用 它 重 新 实现 了 整个 用 户 关 
系 模 块 : 重 写 之 后 的 关系 模块 不 仅 代 码 量 更 少 ， 速 度 更 快 ， 更 重要 的 
是 ， 之 前 需要 使 用 一 段 甚至 一 大 段 SQL 查 询 才能 实现 的 功能 ， 现 在 只 需 
0 
提高。 


自 此 之 后 ， 我 开始 在 越 来 越 多 的 项 目 里 面 使 用 Redis， 与 此 同时 ， 
我 对 Redis 的 内 部 实现 也 越 来 越 感 兴趣 ， 一 些 问 题 开 始 频 繁 地 出 现在 我 
的 脑海 中 ， 比 如 : 











"Redis 的 五 种 数据 类 型 分 别 是 由 什么 数据 结构 实现 的 ? 


-Redis 的 字符 串 数据 类 型 既 可 以 存储 字符 串 〈( 比 如 “hello world”) ， 
又 可 以 存储 整数 和 浮 点 数 〈 比 如 10086 和 3.14) ， 甚 至 是 二 进 制 位 (使 
用 SETBIT 等 命令 ) ，Redis 在 内 部 是 怎样 存储 这 些 值 的 ? 


-Redis 的 一 部 分 命令 只 能 对 特定 数据 类 型 执行 (比如 APPEND 只 能 
对 字符 串 执 行 ，HSET 只 能 对 哈 希 表 执 行 ) ， 而 另 一 部 分 命令 却 可 以 对 
所 有 数据 类 型 执行 〈 比 如 DEL、TYPE 和 EXPIRE) ， 不 同 的 命令 在 执行 
时 是 如 何 进行 类 型 检查 的 ? Redis 在 内 部 是 否 实现 了 一 个 类 型 系统 ? 


"Redis 的 数据 库 是 怎样 存储 各 种 不 同 数据 类 型 的 键 值 对 的 ? 数据库 
里 面 的 过 期 键 又 是 怎样 实现 自动 删除 的 ? 


除了 数据 库 之 外 ，Redis 还 拥有 发 布 与 订阅 、 脚 本 、 事 务 等 特性 ， 
这 些 特性 又 是 如 何 实现 的 ? 


Redis 使 用 什么 模型 或 者 模式 来 处 理 客户 端的 命令 请 求 ? 一 条 命令 
请 求 从 发 送 到 返回 需要 经 过 什么 步骤 ? 


为 了 找到 这 些 问题 的 答案 ， 我 再 次 在 搜索 引擎 上 面 进行 查找 ， 可 惜 
的 是 这 次 搜索 并 没有 多 少 收获 : Redis 还 是 一 个 非常 年 轻 的 软件 ， 对 它 
的 最 好 介绍 就 是 官方 网 站 上 面 的 文档 ， 但 是 这 些 文档 主要 关注 的 是 怎样 
使 用 Redis， 而 不 是 介绍 Redis 的 内 部 实现 。 另 外 ， 网 上 虽然 有 一 些 博客 
文章 对 Redis 的 内 部 实现 进行 了 介绍 ， 但 这 些 文章 要 么 不 齐全 (只 介绍 
了 Redis 中 的 少数 几 个 特性 ) ， 要 么 就 写 得 过 于 简单 (只 是 一 些 概述 性 
的 文章 ) ， 要 么 关注 的 就 是 旧版 本 (比如 2.0、2.2 或 者 2.4， 而 当时 的 最 
新 版 已 经 是 2.6 了 ) 。 


综合 来 看 ， 详 细 而 且 完 整地 介绍 Redis 内 部 实现 的 资料 ， 无 论 是 外 
文 还 是 中 文 都 不 存在 。 意 识 到 这 一 点 之 后 ， 我 决定 自己 动手 注释 Redis 
的 源 代码 ， 从 中 寻找 问题 的 答案 ， 并 通过 写 博客 的 方式 与 其 他 Redis 用 
户 分 享 我 的 发 现 。 在 积累 了 七 八 篇 Redis 源 代码 注释 文章 之 后 ， 我 想 如 
果 能 将 这 些 博文 汇集 成 书 的 话 ， 那 一 定 会 非常 有 趣 ， 并 且 我 自己 也 会 从 
中 学 到 很 多 知识 。 于 是 我 在 2012 年 年 末 开 始 创 作 《Redis 设 计 与 实 
现 》， 并 最 终于 2013 年 3 月 8 日 在 互联 网 发 布 了 本 书 的 第 一 版 。 


尽管 《Redis 设 计 与 实现 》 第 一 版 顺利 发 布 了 ， 但 在 我 的 心目 中 ， 






































这 个 第 一 版 还 是 有 很 多 不 完善 的 地 方 : 


-比如 说 ， 因 为 第 一 版 是 我 边 注释 Redis 源 代码 边 写 的 ， 如 果 有 足够 
时 间 让 我 先 完整 地 注释 一 过 Redis 的 源 代 码 ， 然 后 再 进行 写作 的 话 ， 那 
么 书本 在 内 容 方面 应 该 会 更 为 全 面 。 


:又 比如 说 ， 第 一 版 只 介绍 了 Redis 的 内 部 机 制 和 单机 特性 ， 但 并 没 
有 介绍 Redis 多 机 特性 ， 而 我 认为 只 有 将 关于 多 机 特性 的 介绍 也 包含 进 
来 ， 这 本 《Redis 设 计 与 实现 》 才 算是 真正 的 完成 了 。 


就 在 我 考虑 应 该 何 时 编写 新 版 来 修复 这 些 缺 陷 的 时 候 ， 机 械 工 业 出 
版 社 的 吴 怡 编辑 来 信 询 问 我 是 否 有 兴趣 正式 地 出 版 《Redis 设 计 与 实 
现 》， 能 够 正式 地 出 版 自己 写 的 书 一 直 是 我 梦 打 以 求 的 事情 ， 我 找 不 到 
任何 拒绝 这 一 邀请 的 理由 ， 就 这 样 ， 在 《Redis 设 计 与 实现 》 第 一 版 发 
布 几 天 之 后 ， 新 版 《Redis 设 计 与 实现 》 的 写作 也 马 不 集 蹄 地 开始 了 。 


从 2013 年 3 月 到 2014 年 1 月 这 11 个 月 间 ， 我 重新 注释 了 Redis 在 
unstable 分 支 的 源 代 码 ( 也 即 是 现在 的 Redis 3.0 源 代码 ) ， 重 写 了 
《Redis 设 计 与 实现 》 第 一 版 已 有 的 所 有 章节 ， 并 癌 书 中 添加 了 关于 二 
进 制 位 操作 〈bitop) 、 排 序 、 复 制 、Sentinel 和 集群 等 主题 的 新 章节 ， 
最 终 完 成 了 这 本 新 版 的 《Redis 设 计 与 实现 》。 本 书 不 仅 介 绍 了 Redis 的 
内 部 机 制 ( 比 如 数据 库 实现 、 类 型 系统 、 事 件 模 型 ) ， 而 且 还 介绍 了 大 
部 分 Redis 单 机 特性 (比如 事务 、 持 久 化 、Lua 脚 本 、 排 序 、 二 进 制 位 操 
作 ) ， 以 及 所 有 Redis 多 机 特性 〈 如 复制 、Sentinel 和 集群 ) 。 


虽然 作者 创作 本 书 的 初衷 只 是 为 了 满足 目 己 的 好 奇 心 ， 但 了 解 
Redis 内 部 实现 的 好 处 并 不 仅仅 在 于 满足 好 奇 心 : 通过 了 解 Redis 的 内 部 
实现 ， 理 解 每 一 个 特性 和 命令 背后 的 运作 机 制 ， 可 以 帮助 我 们 更 高 效 地 
使 用 Redis， 避 开 那 些 可 能 会 引起 性 能 问题 的 陷阱 。 我 更 心 希望 这 本 新 
版 《Redis 设 计 与 实现 》 能 够 帮助 读者 更 好 地 了 解 Redis， 并 成 为 更 优秀 
的 Redis 使 用 者 。 


本 书 的 第 一 版 获得 了 很 多 热心 读者 的 有 反馈， 这 本 新 版 的 很 多 改进 也 
来 源 于 读者 们 的 意见 和 建议 ， 因 此 我 将 继续 在 www.RedisBook.com 设 置 
disqus 论 坛 〈 可 以 不 注册 直接 发 贴 ) ， 欢 迎 读者 随时 就 这 本 新 版 《Redis 
设计 与 实现 》 发 表 提 问 、 和 意见、 建议、 批评、 勘误， 等 等 ， 我 会 努力 地 
采纳 大 家 的 意见 ， 争 取 在 将 来 写 出 更 好 的 《Redis 设 计 与 实现 》， 以 此 
来 回报 大 家 对 本 书 的 支持 。 
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昂 1 章 ”唱诗 


本 书 对 Redis 的 大 多 数 单机 功能 以 及 所 有 多 机 功能 的 实现 原理 进行 
了 介绍 ， 力 图 展示 这 些 功能 的 核心 数据 结构 以 及 关键 的 算法 思想 。 


通过 阅读 本 书 ， 读 者 可 以 快速 、 有 效 地 了 解 Redis 的 内 部 构造 以 及 
运作 机 制 ， 这 些 知识 可 以 帮助 读者 更 好 地 、 也 更 高 效 地 使 用 Redis。 


为 了 让 本 书 的 内 容 保持 简单 并 且 容 易 读 懂 ， 本 书 会 尽量 以 高 层次 的 
角度 来 对 Redis 的 实现 原理 进行 描述 ， 如 果 读 者 只 是 对 Redis 的 实现 原理 
感 兴趣 ， 但 并 不 想 研究 Redis 的 源 人 代码， 那么 阅读 本 书 就 足够 了 。 


另 一 方面 ， 如 果 读 者 打算 深入 了 解 Redis 实 现 原理 的 底层 细节 ， 本 
书 在 RedisBook.com 提 供 了 一 份 带 有 详细 注释 的 Redis 源 代码 ， 读 者 可 以 
先 阅 读本 书 对 某 一 功能 的 介绍 ， 然 后 再 阅读 该 功能 对 应 的 实现 代码 ， 这 
0 
实现 原理 。 








1.1 Redis 版 本 说 明 


本 书 是 基于 Redis 2.9 也 即 是 Redis 3.0 的 开发 版 来 编写 的 ， 因 为 
Redis 3.0 的 更 新 主要 与 Redis 的 多 机 功能 有 关 ， 而 Redis 3.0 的 单机 功能 则 
与 Redis 2.6、Redis 2.8 的 单机 功能 基本 相同 ， 所 以 本 书 的 内 容 对 于 使 用 
Redis 2.6 至 Redis 3.0 的 读者 来 说 应 该 都 是 有 用 的 。 


另外 ， 因 为 Redis 通 常 都 是 渐进 地 增加 新 功能 ， 并 且 很 少 会 大 幅 地 
修改 已 有 的 功能 ， 所 以 本 书 的 大 部 分 内 容 对 于 Redis 3.0 之 后 的 几 个 版 本 
来 说 ， 应 该 也 是 有 用 的 。 





1.2 章节 编排 


本 书 由 “数据 结构 与 对 象 "、 “单机 数据 库 的 实现 `“ 多 机 数据 库 的 
实现 ” “独立 功能 的 实现 ”四 个 部 分 组 成 。 


第 一 部 分 “数据 结构 与 对 象 ” 


Redis 数 据 库 里 面 的 每 个 键 值 对 (key-value pair) 都 是 由 对 象 
(object) 组 成 的 ， 其 中 : 


数据 库 键 总 是 一 个 字符 串 对 象 (string object) ; 

:而 数据 库 键 的 值 则 可 以 是 字符 串 对 象 、 列 表 对 象 (ist object) 、 
哈 希 对 象 (hash ”object) 、 集 合 对 象 (set ”object) 、 有 序 集合 对 象 
Csorted set object) 这 五 种 对 象 中 的 其 中 一 种 。 

比如 说 ， 执 行 以 下 命令 将 在 数据 库 中 创建 一 个 键 为 字符 串 对 象 ， 值 
也 为 字符 串 对 象 的 键 值 对 : 


redis> SET msg "hello world" 
OK 





而 执行 以 下 命令 将 在 数据 库 中 创建 一 个 键 为 字符 串 对 象 ， 值 为 列表 
对 象 的 键 值 对 ; 





redis> RPUSH numbers 1 3 5 7 9 
(integer) 5 


本 书 的 第 一 部 分 将 对 以 上 提 到 的 五 种 不 同类 型 的 对 象 进行 介绍 ， 剂 
析 这 些 对 象 所 使 用 的 撒 层 数据 结构 ， 并 说 明 这 些 数据 结构 是 如 何 深 刻 地 
影响 对 象 的 功能 和 性 能 的 。 
第 二 部 分 “单机 数据 库 的 实现 ” 

本 书 的 第 二 部 分 对 Redis 实 现 单 机 数据 库 的 方法 进行 了 介绍 。 


第 9 章 “ 数 据 库 ” 对 Redis 数 据 库 的 实现 原理 进行 了 介绍 ， 说 明了 服务 





器 保存 键 值 对 的 方法 ， 服 务 器 保存 键 值 对 过 期 时 间 的 方法 ， 以 及 服务 器 
目 动 删除 过 期 键 值 对 的 方法 等 等 。 


第 10 章 “RDB 持 久 化 ”和 第 11 章 “AOF 持 久 化 ”分 别 介 绍 了 Redis 两 种 不 
同 的 持久 化 方式 的 实现 原理 ， 说 明了 服务 器 根据 数据 库 来 生成 持久 化 文 
件 的 方法 ， 服 务 器 根据 持久 化 文件 来 还 原 数 据 库 的 方法 ， 以 及 BGSAVE 
命令 和 BGREWRITEAOF 命 令 的 实现 原理 等 等 。 


第 12 章 “事件 ”对 Redis 的 文件 事件 和 时 间 事 件 进行 了 介绍 : 


文件 事件 主要 用 于 应 答 (accept) 客户 端的 连接 请 求 ， 接 收 客户 端 
发 送 的 命令 请 求 ， 以 及 回 客 户 痢 返回 命令 回复 ; 


:而 时 间 事 件 则 主要 用 于 执行 redis.c/serverCron 函 数 ， 这 个 函数 通过 
执行 常规 的 维护 和 管理 操作 来 保持 Redis 服 务 器 的 正常 运作 ， 一 些 重要 
的 定时 操作 也 是 由 这 个 函数 负责 触发 的 。 


第 13 章 “客户 端 ? 对 Redis 服 务 器 维护 和 管理 客户 端 状 态 的 方法 进行 了 
介绍 ， 列 举 了 客户 端 状态 包含 的 各 个 属性 ， 说 明了 客户 端的 输入 缓冲 区 
和 输出 缓冲 区 的 实现 方法 ， 以 及 Redis 服 务 器 创建 和 销毁 客户 端 状态 的 


条 件 等 等 。 











第 14 章 “服务 器 ”对 单机 Redis 服 务 器 的 运作 机 制 进行 了 介绍 ， 详 细 地 
说 明了 服务 右 处 理 命令 请 求 的 步骤 ， 解 释 了 serverCron 函 数 所 做 的 工 
作 ， 并 讲解 了 Redis 服 务 器 的 初始 化 过 程 。 


第 三 部 分 “多 机 数据 库 的 实现 ” 


本 书 的 第 三 部 分 对 Redis 的 Sentinel、 复 制 (replication) 、 集 和 群 
Ccluster) 三 个 多 机 功能 进行 了 介绍 。 


第 15 章 “复制 ?对 Redis 的 主 从 复制 功能 (master-slave replication) 的 
实现 原理 进行 了 介绍 ， 说 明了 当 用 户 指 定 一 个 服务 器 (从 服务 器 〉 去 复 
制 另 一 个 服务 器 〈 主 服务 器 ) 时 ， 主 从 服务 器 之 间 执 行 了 什么 操作 ， 进 
行 了 什么 数据 交互 ， 诸 如 此 类 。 


第 16 章 “Sentinel” 对 Redis ”Sentinel 的 实现 原理 进行 了 介绍 ， 说 明了 
Sentinel 监 视 服务 器 的 方法 ，Sentinel 判 断 服 务 器 是 否 下 线 的 方法 ， 以 及 





Sentinel 对 下 线 服务 器 进行 故障 转移 的 方法 等 等 。 


第 17 章 “集群 ?对 Redis 集 群 的 实现 原理 进行 了 介绍 ， 说 明了 节点 
(node) 的 构建 方法 ， 节 点 处 理 命令 请 求 的 方法 ， 转 发 〈redirection ) 
错误 的 实现 方法 ， 以 及 各 个 节点 之 间 进 行 通 信 的 方法 等 等 。 


第 四 部 分 “独立 功能 的 实现 ” 
本 书 的 第 四 部 分 对 Redis 中 各 个 相对 独立 的 功能 模块 进行 了 介绍 。 


第 18 章 “发 布 与 订阅 "对 PUBLISH、SUBSCRIBE、PUBSUB 等 命令 
的 实现 原理 进行 了 介绍 ， 解 释 了 Redis 的 发 布 与 订阅 功能 是 如 何 实现 
的 。 


第 19 章 “事务 ”对 MULTI、EXEC、WATCH 等 命令 的 实现 原理 进行 
了 介绍 ， 解 释 了 Redis 的 事务 是 如 何 实 现 的 ， 并 说 明了 Redis 的 事务 对 
ACID 性 质 的 支持 程度 。 


第 20 章 “Lua 脚 本 ”对 EVAL、EVALSHA、SCRIPT LOAD 等 命令 的 实 
现 原 理 进行 了 介绍 ， 解 释 了 Redis 服 务 器 是 如 何 执 行 和 管理 用 户 传 入 的 
Lua 脚 本 的 ， 这 一 章 还 对 Redis 服 务 器 构建 Lua 环 境 的 过 程 ， 以 及 主 从 服 
务 器 之 间 复 制 Lua 脚 本 的 方法 进行 了 介绍 。 


第 21 章 “排序 ?对 SORT 命 令 以 及 SORT 命 令 所 有 可 用 选项 〈 比 如 
DESC、ALPHA、GET 等 等 ) 的 实现 原理 进行 了 介绍 ， 并 说 明了 当 
SORT 命 令 带 有 多 个 选项 时 ， 不 同 选 项 执行 的 先后 顺序 。 


第 22 间 “二进制 位 数组 ”对 Redis 保 存 二 进 制 位 数组 的 方法 进行 了 介 
绍 ， 并 说 明了 GETBIT、SETBIT、BITCOUNT、BITOP 这 几 个 二 进 制 位 
数组 操作 命令 的 实现 原理 。 


第 23 章 “ 慢 碍 询 日 志 ?” 对 Redis 创 建 和 保存 慢 碍 询 日 志 (slow log) 的 
方法 进行 了 介绍 ， 并 说 明了 SLOWLOG GET、SLOWLOG LEN.、 
SLOWLOG RESET 等 慢 查 询 日 志 操 作 命令 的 实现 原理 。 


第 24 章 “监视 器 ”介绍 了 将 客户 端 变 为 监视 器 (monitor) 的 方法 ， 以 
及 服务 器 在 处 理 命令 请 求 时 ， 同 监视 器 发 送 命令 信息 的 方法 。 


























1.3 ”推荐 的 阅读 方法 


因为 Redis 的 单机 功能 是 多 机 功能 的 子 集 ， 所 以 无 论 读者 使 用 的 是 
单机 模式 的 Redis， 还 是 多 机 模式 的 Redis， 都 应 该 阅读 本 书 的 第 一 部 分 
人 
LE 


如 果 读 者 要 使 用 Redis 的 多 机 功能 ， 那 么 在 阅读 本 书 的 第 一 部 分 和 
第 二 部 分 之 后 ， 应 该 接着 阅读 本 书 的 第 三 部 分 。 如 果 读 者 只 使 用 Redis 
的 单机 功能 ， 那 么 可 以 跳 过 第 三 部 分 ， 直 接 阅 读 第 四 部 分 。 


本 书 的 前 三 个 部 分 都 是 以 目 底 向 上 〈bottom-up) 的 方式 来 写 的 ， 也 
承 是 说 ， 排 在 后 面 的 章节 会 假设 读者 已 经 读 过 了 排 在 前 面 的 章节 。 如 果 
一 个 概念 在 前 面 的 章节 已 经 介绍 过 ， 那 么 后 面 的 章节 就 不 会 再 重复 介绍 
这 个 概念 ， 所 以 读者 最 好 按 顺 序 阅 读 这 三 部 分 的 各 个 章节 。 


本 书 的 第 四 部 分 包 合 的 各 章 是 完全 独立 的 ， 读 者 可 以 按 目 己 的 兴趣 
来 挑选 要 读 的 草 市 。 在 本 书 的 第 四 部 分 中 ， 除 了 第 20 章 的 其 中 一 市 涉及 
多 机 功能 的 内 容 之 外 ， 其 他 章节 都 没有 涉及 多 机 功能 的 内 容 ， 所 以 第 四 
部 分 的 大 部 分 章节 都 可 以 在 只 阅读 了 本 书 第 一 部 分 和 第 二 部 分 的 情况 下 
阅读 。 


图 1-1 对 上 面 描 述 的 阅读 方法 进行 了 总 结 。 





按 顺序 阅读 第 一 部 分 “数据 结构 与 对 象 ”的 所 有 章节 
按 顺序 阅读 第 二 部 分 “单机 数据 库 的 实现 ”的 所 有 章节 


你 要 用 到 Redis 的 
多 机 功能 吗 ? 


按 顺序 阅读 第 三 部 分 “多 机 在 
数据 库 的 实现 ”的 所 有 章节 






挑选 第 四 部 分 “独立 功能 的 实现 ”中 你 喜欢 的 章节 来 进行 阅读 
图 1-1 推荐 阅读 方法 





1.4 行文 规则 
名 字 引 用 规则 

在 第 一 次 引用 Redis 源 代码 文件 fle 中 的 名 字 name 时 ， 本 书 使 用 
filename 格 式 ， 比 如 redis.cmain 表 示 redis.c 文 件 中 的 main 函 数 ， 而 
redis.hredisDb 则 表示 redis.h 文 件 中 的 redisDb 结 构 ， 诸 如 此 类 。 

另外 ， 在 第 一 次 引用 标准 库 头 文件 file 中 的 名 字 name 时 ， 本 书 使 用 
<file>mname 格 式 ， 比 如 <unistd.h>/write 表 示 unistd.h 头 文件 的 write 函数 ， 
而 <stdio.h>/printf 则 表示 stdio.h 头 文件 的 printf 函 数 ， 诸 如 此 类 。 

在 第 一 次 引用 某 个 名 字 之 后 ， 本 书 就 会 去 掉 名 字 前 缀 的 文件 名 ， 直 
接 使 用 名 字 本 喘 。 举 个 例子 ， 当 第 一 次 引用 redis.h 文 件 的 redisDb 结 构 的 
时 候 ， 会 使 用 redis.h/redisDb 格 式 ， 而 之 后 再 次 引用 redisDb 结 构 时 ， 只 
使 用 名 字 redisDb。 
结构 引用 规则 

本 书 使 用 struct.property 格 式 来 引用 struct 结 构 的 property 属 性 ， 比 如 
redisDb.id 表 示 redisDb 结 构 的 id 属 性 ， 而 redisDb.expires 则 表示 redisDb 结 
构 的 expires 属 性 ， 诸 如 此 类 。 
算法 规则 


除非 有 额外 说 明 ， 人 否则 本 书 列 出 的 算法 复杂 度 一 律 为 最 坏 情形 下 的 
算法 复杂 度 。 


代码 规则 
本 书 使 用 C 语 言 和 Python 语 言 来 展示 代码 : 


-在 插 述 数据 结构 以 及 比较 简短 的 代码 时 ， 本 书 通 常会 直接 粘贴 
Redis 的 源 代 码 ， 也 即 C 语 言 代 码 。 


:而 当 需 要 使 用 代码 来 描述 比较 长 或 者 比较 复杂 的 程序 时 ， 本 书 通 
常会 使 用 Python 语 言 来 表示 伪 代 人 码 。 

















本 书展 示 的 Python 伪 代码 中 通常 会 包含 server 和 client 两 个 全 局 变 
量 ， 其 中 server 表 示 服 务 器 状态 (redis.h/redisServer 结 构 的 实例 ) ， 而 
dlient 则 表示 正在 执行 操作 的 客户 端 状态 (redis.h/redisClient 结 构 的 实 
例 ) 。 


1.5 配套 网 站 


本 书 配套 网 站 redisbook.com 记 录 了 本 书 的 最 新 消息 ， 并 且 提 供 了 附 
市 详细 注释 的 Redis 源 代码 可 供 下 载 ， 读 者 也 可 以 通过 这 个 网 站 查看 和 
反馈 本 书 的 勘误 ， 或 者 发 表 与 本 书 有 关 的 了 问题、 意见 以 及 建议 。 
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第 一 部 分 “数据 结构 与 对 象 


简单 动态 字符 串 
链表 

字典 

跳跃 表 

整数 集合 
压 绾 列表 

对 象 


第 2 章 ”简单 动态 字符 串 


Redis 没 有 直接 使 用 C 语 言传 统 的 字符 串 表 示 《 以 空 字符 结尾 的 字符 
数组 ， 以 下 简称 C 字 符 串 〉， 而 是 自己 构建 了 一 种 名 为 简单 动态 字符 串 
(simple dynamic string，SDS) 的 抽象 类 型 ， 并 将 SDS 用 作 Redis 的 默认 
字符 串 表示 。 


在 Redis 里 面 ，C 字 符 串 只 会 作为 字符 串 字 面 量 (string literal〉 用 在 
一 些 无 须 对 字符 串 值 进行 修改 的 地 方 ， 比 如 打印 日 志 : 








redisLog(REDIS WARNING, "Redis is now ready to exit, bye bye..."); 











当 Redis 需 要 的 不 仅仅 是 一 个 字符 串 字 面 量 ， 而 是 一 个 可 以 被 修改 
的 字符 串 值 时 ，Redis 就 会 使 用 SDS 来 表示 字符 串 值 ， 比 如 在 Redis 的 数 
据 库 里 面 ， 包 含 字符 串 值 的 键 值 对 在 底层 都 是 由 SDS 实 现 的 。 


举 个 例子 ， 如 果 客 户 端 执行 命令 : 








redis> SET msg "hello world" 
OK 





那么 Redis 将 在 数据 库 中 创建 一 个 新 的 键 值 对 ， 其 中 : 


. 键 值 对 的 键 是 一 个 字符 串 对 象 ， 对 象 的 底层 实现 是 一 个 保存 着 字 
符 串 “msg” 的 SDS。 


- 键 值 对 的 值 也 是 一 个 字符 串 对 象 ， 对 象 的 底层 实现 是 一 个 保存 着 
字符 串 “hello world” 的 SDS。 


又 比如 ， 如 果 客 户 端 执行 命 





Ce RPUSH fruits "apple" "banana" "cherry" 
(integer) 3 





那么 Redis 将 在 数据 库 中 创建 一 个 新 的 键 值 对 ， 其 中 : 


- 键 值 对 的 键 是 一 个 字符 串 对 象 ， 对 象 的 底层 实现 是 一 个 保存 了 字 
符 串 “fruits” 的 SDS。 


”一 键 值 对 的 值 是 一 个 列表 对 和 象 ， 列 表 对 象 包含 了 三 个 字符 串 对 和 象 ， 
这 三 个 字符 串 对 象 分 别 由 三 个 SDS 实 现 : 第 一 个 SDS 保 存 着 字符 ” 
串 “apple”， 第 二 个 SDS 保 存 着 字符 串 “banana”， 第 三 个 SDS 保 存 着 字符 
串 “cherry”。 


除了 用 来 保存 数据 库 中 的 字符 串 值 之 外 ，SDS 还 被 用 作 绥 冲 区 
Cbuffer) : AOF 模 块 中 的 AOF 绥 冲 区 ， 以 及 客户 端 状 态 中 的 输入 缓冲 
区 ， 都 是 由 SDS 实 现 的 ， 在 之 后 介绍 AOF 持 久 化 和 客户 端 状态 的 时 候 ， 
我 们 会 看 到 SDS 在 这 两 个 模块 中 的 应 用 。 


本 和 章 接 下 来 将 对 SDS 的 实现 进行 介绍 ， 说 明 SDS 和 C 字 符 串 的 不 同 
之 处 ， 解 释 为 什么 Redis 要 使 用 SDS 而 不 是 C 字 符 串 ， 并 在 本 章 的 最 后 列 
出 SDS 的 操作 API。 





2.1 ”SDS 的 定义 


每 个 sds.h/sdshdr 结 构 表 示 一 个 SDS 值 : 





struct sdshdr { 
// 


记录 buf 
数组 中 已 使 用 字 节 的 数量 
Ai 





等 于 S| 


二 DS 
所 保存 字符 串 的 长 度 
int len; 











记录 buf 
数组 中 未 使 用 字 节 的 数量 
int free; 




















字 节 数组 ， 用 于 保存 字符 串 
char buf[]; 
}; 











图 2-1 展 示 了 一 个 SDS 示 例 : 





图 2-1 ”SDS 示例 


free 属 性 的 值 为 0， 表 示 这 个 SDS 没 有 分 配 任 何 未 使 用 空间 。 

-len 属性 的 值 为 5， 表 示 这 个 SDS 保 存 了 一 个 五 字 节 长 的 字符 串 。 

:buf 属性 是 一 个 char 类 型 的 数组 ， 数 组 的 前 五 个 字 节 分 别 保存 
了 R、e、'd 了、 五 个 字符 ， 而 最 后 一 个 字 节 则 保存 了 空 字符 \0'。 


SDS 亲 人 循 C 字 符 串 以 空 字符 结尾 的 惯例 ， 保 存 空 字 符 的 1 学 节 空 间 不 
计算 在 SDS 的 len 属 性 里 面 ， 并 且 为 空 字符 分 配额 外 的 1 字 节 空间 ， 以 及 
添加 空 字符 到 字符 串 末 尾 等 操作 ， 痢 是 由 SDS 函 数 自动 完成 的 ， 所 以 这 
个 空 字符 对 于 SDS 的 使 用 者 来 说 是 完全 透明 的 。 遵 循 空 字符 结尾 这 一 惯 


例 的 好 处 是 ，SDS 可 以 直接 重用 一 部 分 C 字 符 串 函数 库 里 面 的 冰 数 。 


举 个 例子 ， 如 果 我 们 有 一 个 指 癌 图 2-1 所 示 SDS 的 指针 s， 那 么 我 们 
可 以 直接 使 用 <stdio.h>/printf 函 数 ， 通 过 执行 以 下 语句 : 





printf("%s", s->buf); 


来 打印 出 SDS 保 存 的 字符 串 值 “Redis”， 而 无 须 为 SDS 编 写 专 门 的 打 
印 函 数 。 


图 2-2 展 示 了 另 一 个 SDS 示 例 。 这 个 SDS 和 之 前 展示 的 SDS 一 样 ， 都 
保存 了 字符 串 值 *Redis”。 这 个 SDS 和 之 前 展示 的 SDS 的 区 别 在 于 ， 这 个 
SDS 为 buf 数 组 分 配 了 五 字 节 未 使 用 空间 ， 所 以 它 的 free 属 性 的 值 为 
5( 图 中 使 用 五 个 空格 来 表示 五 字 节 的 未 使 用 空间 〉。 















sdshdr 
free 






len 
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图 2-2 和 带 有 未 使 用 空间 的 SDS 示 例 


接 下 来 的 一 市 将 详细 地 说 明示 使 用 空间 在 SDS 中 的 作用 。 





buf 





2.2 SDS 与 C 字 符 串 的 区 别 


根据 传统 ，C 语 言 使 用 长 度 为 N+1 的 字符 数组 来 表示 长 度 为 N 的 字符 
串 ， 并 且 字 符 数 组 的 最 后 一 个 元 素 总 是 空 字符 \0'。 


例如 ， 图 2-3 束 展示 了 一 个 值 为 "Redis" 的 C 字 符 串 。 














图 2-3 “C 字 符 串 


C 语 言 使 用 的 这 种 简单 的 字符 串 表 示 方 式 ， 并 不 能 满足 Redis 对 字符 
串 在 安全 性 、 效 率 以 及 功能 方面 的 要 求 ， 本 节 接 下 来 的 内 容 将 详细 对 比 
C 字 符 串 和 SDS 之 间 的 区 别 ， 并 说 明 SDS 比 C 字 符 串 更 适用 于 Redis 的 原 
因 。 


2.2.1 常数 复杂 度 获取 字符 串 长 度 
因为 C 字 符 串 并 不 记录 上 自身 的 长 度 信 息 ， 所 以 为 了 获取 一 个 C 字 符 
捉 的 长 度 ， 程 友 必 须 授 历 整 个 字符 串 ， 对 过 到 的 每 个 字符 进行 计数 ， 下 
到 遇 到 代表 字符 串 结尾 的 空 字符 为 目 ， 这 个 操作 的 复杂 度 为 O CN) 。 
举 个 例子 ， 图 2-4 展 示 了 程序 计算 一 个 C 字 符 串 长 度 的 过 程 。 














len=1 





len=2 





len=3 
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len=5 


Re lal ls [lo 





发 现 空 字符 
停止 计数 
字符 串 的 长 度 为 5 字 节 








图 2-4 计算 C 字 符 串 长 度 的 过 程 
和 C 字 符 串 不 同 ， 因 为 SDS 在 len 属 性 中 记录 了 SDS 本 里 的 长 度 ， 所 





以 获取 一 个 SDS 长 度 的 复杂 度 仅 为 O (1) 。 
举 个 例子 ， 对 于 图 2-5 所 示 的 SDS 来 说 ， 程 序 只 要 访问 SDS 的 len 属 


性 ， 就 可 以 立即 知道 SDS 的 长 度 为 5 字 节 。 





图 2-5 ”5 字 节 长 的 SDS 


又 例如 ， 对 于 图 2-6 展 示 的 SDS 来 说 ， 程 序 只 要 访问 SDS 的 len 属 
性 ， 就 可 以 立即 知道 SDS 的 长 度 为 11 字 节 。 











图 2-6 ”11 字 节 长 的 SDS 


设置 和 更 新 SDS 长 度 的 工作 是 由 SDS 的 API 在 执行 时 自动 完成 的 ， 





使 用 SDS 无 须 进 行 任 何 手动 修改 长 度 的 工作 。 


通过 使 用 SDS 而 不 是 C 字 符 串 ，Redis 将 获取 字符 串 长 度 所 需 的 复杂 
度 从 O(N) 降低 到 了 O 〈1) ， 这 确保 了 获取 字符 串 长 度 的 工作 不 会 成 
为 Redis 的 性 能 瓶颈 。 例 如 ， 因 为 字符 串 键 在 底层 使 用 SDS 来 实现 ， 所 以 
即使 我 们 对 一 个 非常 长 的 字符 串 键 反 复 执 行 STRLEN 命 令 ， 也 不 会 对 系 
统 性 能 造成 任何 影响 ， 因 为 STRLEN 命 令 的 复杂 度 仅 为 O (1) 。 


2.2.2 ”杜绝 缓冲 区 溢出 











除了 获取 字符 串 长 度 的 复杂 度 高 之 外 ，C 字 符 串 不 记录 自身 长 度 带 
来 的 男 一 个 问题 是 容易 造成 绥 冲 区 洲 出 (buffer overflow) 。 举 个 例 
子 ，<string.h>/strcat 函 数 可 以 将 src 字 符 串 中 的 内 容 拼 接 到 dest 字 符 串 的 
末尾 : 








char *strcat(char *dest, const char *src); 











因为 C 字 符 串 不 记录 目 身 的 长 度 ， 所 以 strcat 假 定 用 户 在 执行 这 个 函 
数 时 ， 已 经 为 dest 分 配 了 足够 多 的 内 存 ， 可 以 容纳 src 字 符 串 中 的 所 有 内 
容 ， 而 一 旦 这 个 假定 不 成 立时 ， 就 会 产生 缓冲 区 溢出 。 


举 个 例子 ， 假 设 程序 里 有 两 个 在 内 存 中 紧邻 着 的 C 字 符 串 sl1 和 s2， 
人 而 s2 则 保存 了 字符 串 "MongoDB"， 如 图 2- 
7 所 示 。 
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图 2-7 在 内 存 中 紧邻 的 两 个 C 字 符 串 
如 琳 一 个 程序 员 决 定 通 过 执行 : 








streat(s1l, * Cluster™)s 





将 s1 的 内 容 修 改 为 "Redis ”Cluster"， 但 粗心 的 他 却 忘 了 在 执行 strcat 
之 前 为 s1 分 配 足 够 的 空间 ， 那 么 在 strcat 函 数 执行 之 后 ，s1 的 数据 将 溢出 





到 s2 所 在 的 空间 中 ， 导 致 2 保 存 的 内 容 被 意外 地 修改 ， 如 图 2-8 所 示 。 
$1 $2 
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图 2-8”S1 的 内 容 溢 出 到 了 S2 所 在 的 位 置 上 


与 C 字 符 串 不 同 ，SDS 的 空间 分 配 策略 完全 杜绝 了 发 生 缓 冲 区 溢出 
的 可 能 性 : 当 SDS API 需 要 对 SDS 进 行 修 改 时 ，API 会 先 检查 SDS 的 空间 
是 否 满足 修改 所 需 的 要 求 ， 如 果 不 满足 的 话 ，API 会 自动 将 SDS 的 空间 





扩展 至 执行 修改 所 需 的 大 小 ， 然 后 才 执 行 实际 的 修改 操作 ， 所 以 使 用 
SDS 既 不 需要 手动 修改 SDS 的 空间 大 小 ， 也 不 会 出 现 前 面 所 说 的 缓冲 区 


淤 出 问题 。 


举 个 例子 ，SDS 的 API 里 面 也 有 一 个 用 于 执行 拼接 操作 的 sdscat 函 
数 ， 它 可 以 将 一 个 C 字 符 串 拼 接 到 给 定 SDS 所 保存 的 字符 串 的 后 面 ， 但 
古 在 执行 拼接 操作 之 前 ，sdscat 会 先 检查 给 定 SDS 的 空间 是 否 足 够 ， 如 
果 不 够 的 话 ，sdscat 就 会 先 扩 展 SDS 的 空间 ， 然 后 才 执 行 拼接 操作 。 


例如 ， 如 果 我 们 执行 : 











sdscat(s, " Cluster"); 


其 中 SDS 值 s 如 图 2-9 所 示 ， 那 么 sdscat 将 在 执行 拼接 操作 之 前 检查 s 
的 长 度 是 否 足 够 ， 在 发 现 s 目 前 的 空间 不 足以 拼接 "Cluster" 之 后 ，sdscat 
就 会 先 扩展 s 的 空间 ， 然 后 才 执 行 拼接 "Cluster" 的 操作 ， 拼 接 操作 完成 之 
后 的 SDS 如 图 2-10 所 示 。 


free 
0 
len 
3 










图 2-9 sdscat 执 行 之 前 的 SDS 


mm mr 





图 2-10 sdscat 执 行 之 后 的 SDS 


注意 ， 图 2-10 所 示 的 SDS，sdscat 不 仅 对 这 个 SDS 进 行 了 拼接 操作 ， 
它 还 为 SDS 分 配 了 13 字 节 的 未 使 用 空间 ， 并 且 拼 接 之 后 的 字符 串 也 正好 
是 13 字 节 长 ， 这 种 现象 既 不 是 bug 也 不 是 巧合 ， 它 和 SDS 的 空间 分 配 策 
略 有 关 ， 接 下 来 的 小 节 将 对 这 一 策略 进行 说 明 。 


2.2.3 ”减少 修改 字符 串 时 带 来 的 内 存 重 分 配 次 数 


正如 前 两 个 小 节 所 说 ， 因 为 C 字 符 串 并 不 记录 目 曙 的 长 度 ， 所 以 对 
于 一 个 包含 了 N 个 字符 的 C 字 符 串 来 说 ， 这 个 C 字 符 串 的 底层 实现 总 是 一 
个 N+1 个 字符 长 的 数组 〈 额 外 的 一 个 字符 空间 用 于 保存 空 字符 ) 。 因 为 
C 字 符 串 的 长 度 和 底层 数组 的 长 度 之 间 存 在 着 这 种 关联 性 ， 所 以 每 次 增 
长 或 者 缩短 一 个 C 字 符 串 ， 程 序 都 总 要 对 保存 这 个 C 字 符 串 的 数组 进行 
一 次 内 存 重 分 配 操作 : 


:如 果 程 序 执行 的 是 增长 字符 串 的 操作 ， 比 如 拼接 操作 
Cappend) ， 那 么 在 执行 这 个 操作 之 前 ， 程 序 需要 先 通 过 内 存 重 分 配 来 
扩展 底层 数组 的 空间 大 小 如 果 和 态 了 这 一 步 就 会 产生 缓冲 区 洲 出 。 


如果 程 序 执行 的 是 缩短 字符 串 的 操作 ， 比 如 截断 操作 (trim〉 ， 那 
么 在 执行 这 个 操作 之 后 ， 程 序 需要 通过 内 存 重 分 配 来 释放 字符 串 不 再 使 
用 的 那 部 分 空间 一 一 如 果 忘 了 这 一 步 就 会 产生 内 存 泄漏 。 


举 个 例子 ， 如 果 我 们 持 有 一 个 值 为 "Redis" 的 C 字 符 串 s， 那 么 为 了 将 
s 的 值 改 为 "Redis Cluster"， 在 执行 : 



































streat(sr * Clusteor™yy 


之 前 ， 我 们 需要 先 使 用 内 存 重 分 配 操作 ， 扩 展 s 的 空间 。 


之 后 ， 如 果 我 们 又 打算 将 s 的 值 从 "Redis Cluster" 改 为 "Redis Cluster 
Tutorial"， 那 么 在 执行 : 





strcat(s;, " Tutorial"); 


之 前 ， 我 们 需要 再 次 使 用 内 存 重 分 配 扩展 s 的 空间 ， 诸 如 此 类 。 


因为 内 存 重 分 配 涉及 复杂 的 算法 ， 并 且 可 能 需要 执行 系统 调用 ， 所 
以 它 通 常 是 一 个 比较 耗 时 的 操作 : 


-在 一 般 程序 中 ， 如 果 修 改 字符 串 长 度 的 情况 不 太 第 出 现 ， 那 么 每 
次 修改 都 执行 一 次 内 存 重 分 配 是 可 以 接受 的 。 


.但 是 Redis 作 为 数据 库 ， 经 各 被 用 于 速度 要 求 严 奇 、 数 据 被 频繁 修 
改 的 场合 ， 如 果 每 次 修改 字符 串 的 长 度 都 需要 执行 一 次 内 存 重 分 配 的 
话 ， 那 么 光 是 执行 内 存 重 分 配 的 时 间 束 会 占 去 修改 字符 串 所 用 时 间 的 一 
大 部 分 ， 如 果 这 种 修改 频繁 地 发 生 的 话 ， 可 能 还 会 对 性 能 造成 影响 。 

为 了 避免 C 字 符 串 的 这 种 缺陷 ，SDS 通 过 未 使 用 空间 解除 了 字符 串 
长 度 和 底层 数组 长 度 之 间 的 关联 : 在 SDS 中 ，buf 数 组 的 长 度 不 一 定 就 是 
字符 数量 加 一 ， 数 组 里 面 可 以 包含 未 使 用 的 字 节 ， 而 这 些 字 节 的 数量 惑 
由 SDS 的 free 属 性 记录 。 


通过 未 使 用 空间 ，SDS 实 现 了 空间 预 分 配 和 惰性 空间 释放 两 种 优化 





策略 
1. 空 间 预 分 配 
空间 预 分 配 用 于 优化 SDS 的 字符 串 增 长 操作 : 当 SDS 的 API 对 一 个 


SDS 进 行 修改 ， 并 且 需 要 对 SDS 进 行 空 间 扩 展 的 时 候 ， 程 序 不 仅 会 为 
SDS 分 配 修改 所 必须 要 的 空间 ， 还 会 为 SDS 分 配额 外 的 未 使 用 空间 。 


其 中 ， 人 额外 分 配 的 未 使 用 空间 数量 由 以 下 公式 决定 : 


:如 果 对 SDS 进 行 修改 之 后 ，SDS 的 长 度 ( 也 即 是 len 属 性 的 值 ) 将 
小 于 IMB， 那 么 程序 分 配 和 len 属 性 同样 大 小 的 未 使 用 空间 ， 这 时 SDS 
len 属 性 的 值 将 和 free 属 性 的 值 相 同 。 举 个 例子 ， 如 果 进 行 修改 之 后 ， 
SDS 的 len 将 变 成 13 字 节 ， 那 么 程序 也 会 分 配 13 字 节 的 未 使 用 空间 ，SDS 





.如 果 对 SDS 进 行 修改 之 后 ，SDS 的 长 度 将 大 于 等 于 1MB， 那 么 程序 
分 配 1MB 的 未 使 用 空间 。 举 个 例子 ， 如 果 进 行 修改 之 后 ，SDS 的 len 将 


小 


变 成 30MB， 那 么 程序 会 分 配 1MB 的 未 使 用 空间 ，SDS 的 buf 数 组 的 实际 
长 度 将 为 30MB+1MB+1byte。 


通过 空间 预 分 配 集 略 ，Redis 可 以 减少 连续 执行 字符 串 增 长 操作 所 
需 的 内 存 重 分 配 次 数 。 


举 个 例子 ， 对 于 图 2-11 所 示 的 SDS 值 s 来 说 ， 如 采 我 们 执行 : 


0 
len 










图 2-11 执行 sdscat 之 前 的 SDS 





sdscat(s, " Cluster"); 





那么 sdscat 将 执行 一 次 内 存 重 分 配 操作 ， 将 SDS 的 长 度 修 改 为 13 字 
， 并 将 SDS 的 未 使 用 空间 同样 修改 为 13 字 市 ， 如 图 2-12 所 示 。 


二 
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图 2-12 ”执行 sdscat 之 后 SDS 
如 果 这 时 ， 我 们 再 次 对 s 执 行 : 





sdscat(s Tutorial 7 








那么 这 次 sdscat 将 不 需要 执行 内 存 重 分 配 ， 因 为 未 使 用 空间 里 面 的 
13 字 节 足 以 保存 9 字 节 的 "Tutorial"， 执 行 sdscat 之 后 的 SDS 如 图 2-13 所 
示 。 





GD 


rp 13 ee 的 SDS 


在 扩展 SDS 空 间 之 前 ，SDS API 会 先 检查 未 使 用 空间 是 否 足 够 ， 如 
果 足 够 的 话 ，API 就 会 直接 使 用 未 使 用 空间 ， 而 无 须 执 行内 存 重 分 配 。 


通过 这 种 预 分 配 策略 ，SDS 将 连续 增长 N 次 字符 串 所 需 的 内 存 重 分 
配 次 数 从 必定 N 次 降低 为 最 多 N 次 。 
2. 惰 性 空间 释放 


惰性 空间 释放 用 于 优化 SDS 的 字符 串 缩短 操作 : 当 SDS 的 API 需 要 
缩短 SDS 保 存 的 字符 串 时 ， 程 序 并 不 立即 使 用 内 存 重 分 配 来 回收 缩短 后 
， 而 是 使 用 free 属 性 将 这 些 字 节 的 数量 记录 起 来 ， 并 等 待 
将 3 


举 个 例子 ， 从 操作 为 参数 ， 移 
除 SDS 中 所 有 在 C 字 符 串 中 出 现 过 的 字符 


比如 对 于 图 2-14 所 示 的 SDS 值 来 说 ， 执 行 

















会 将 SDS 修 改 成 图 2-15 所 示 的 样子 。 


free 
8 

len 
3 


注意 执行 sdstrim 之 后 的 SDS 并 没有 释放 多 出 来 的 8 字 节 空间 ， 而 是 
将 这 8 字 市 空间 作为 未 使 用 空间 保留 在 了 SDS 里 面 ， 如 果 将 来 要 对 SDS 进 
行 增长 操作 的 话 ， 这 些 未 使 用 空间 就 可 能 会 派 上 用 场 。 


举 个 例子 ， 如 果 现 在 对 s 执 行 : 







图 2-15 “执行 sdstrim 之 后 的 SDS 








那么 完成 这 次 sdscat 操 作 将 不 需要 执行 内 存 重 分 配 : 因为 SDS 里 面 
预 留 的 8 字 节 衬 间 已 经 足以 拼接 6 个 字 节 长 的 "Redis"， 如 图 2-16 所 示 。 

通过 惰性 空间 释放 集 略 ，SDS 避 免 了 缩短 字符 串 时 所 需 的 内 存 重 分 
配 操作 ， 并 为 将 来 可 能 有 的 增长 操作 提供 了 优化 。 


| Mi 


图 2-16 ”执行 sdscat 之 后 的 SDS 





与 此 同时 ，SDS 也 提供 了 相应 的 API， 让 我 们 可 以 在 有 需要 时 ， 真 
子 浪 颖 。 


2.2.4 ”二进制 安全 


C 字 符 串 中 的 字符 必须 符合 某 种 编码 (比如 ASCIIT》 ， 并 且 除 了 字 
符 串 的 末尾 之 外 ， 字 符 串 里 面 不 能 包含 空 字符 ， 人 否则 最 先 被 程序 读 入 的 
空 字符 将 被 误 认 为 是 字符 串 结尾 ， 这 些 限制 使 得 C 字 符 串 只 能 保存 文本 
数据 ， 而 不 能 保存 像 图 片 、 音 频 、 视 频 、 压 纵 文 件 这 样 的 二 进 制 数据 。 

举 个 例子 ， 如 果 有 一 种 使 用 空 字符 来 分 割 多 个 单词 的 特殊 数据 格 


式 ， 如 图 2-17 所 示 ， 那 么 这 种 格式 束 不 能 使 用 C 字 符 串 来 保存 ， 因 为 C 字 
符 捉 所 用 的 函数 只 会 识别 出 其 中 的 "Redis"， 而 忽略 之 后 的 "Cluster"。 








J | | | ws | ta | | 1 ts | a | | ep | i 


图 2-17 使 用 空 字符 来 分 割 单词 的 特殊 数据 格式 


虽然 数据 库 一 般 用 于 保存 文本 数据 ， 但 使 用 数据 库 来 保存 二 进 制 数 
据 的 场景 也 不 少见 ， 因 此 ， 为 了 确保 Redis 可 以 适用 于 各 种 不 同 的 使 用 
场景 ，SDS 的 API 都 是 二 进 制 安全 的 〈binary-safe) ， 所 有 SDS API 都 会 
以 处 理 二 进 制 的 方式 来 处 理 SDS 存 放 在 buf 数 组 里 的 数据 ， 程 序 不 会 对 其 
中 的 数据 做 任何 限制 、 过 滤 、 或 者 假设 ， 数 据 在 写 入 时 是 什么 样 的 ， 它 
被 谈 取 时 就 是 什么 样 。 

这 也 是 我 们 将 SDS 的 puf 属 性 称 为 字 节 数组 的 原因 一 一 Redis 不 是 用 
这 个 数组 来 保存 字符 ， 而 是 用 它 来 保存 一 系列 二 进 制 数据 。 


例如 ， 使 用 SDS 来 保存 之 前 提 到 的 特殊 数据 格式 就 没有 任何 问题 ， 
人 
18 有 未 。 

















Le Si a | | ht | Pp | | we A 
图 2-18 ”保存 了 特殊 数据 格式 的 SDS 
通过 使 用 二 进 制 安全 的 SDS， 而 不 是 C 字 符 串 ， 使 得 Redis 不 仅 可 以 





保存 文本 数据 ， 还 可 以 保存 任意 格式 的 二 进 制 数据 。 
2.2.5 “兼容 部 分 C 字 符 串 函数 


虽然 SDS 的 API 都 是 二 进 制 安全 的 ， 但 它们 一 样 遵 循 C 字 符 串 以 空 字 
符 结尾 的 惯例 : 这 些 API 总 会 将 SDS 保 存 的 数据 的 末尾 设置 为 空 字符 ， 
并 且 总 会 在 为 buf 数 组 分 配 空间 时 多 分 配 一 个 字 节 来 容纳 这 个 空 字符 ， 
ee 
函数 。 





”| es | | | | i | i | | a 


图 2-19 一 个 保存 着 文本 数据 的 SDS 





举 个 例子 ， 如 图 2-19 所 示 ， 如 果 我 们 有 一 个 保存 文本 数据 的 SDS 值 
sds， 那 么 我 们 就 可 以 重用 <string.h>/strcasecmp 函 数 ， 使 用 它 来 对 比 SDS 
保存 的 字符 串 和 另 一 个 C 字 符 串 : 


strcasecmp(sds->buf, "hello world"); 


0 就 不 用 目 己 专门 去 写 一 个 函数 来 对 比 SDS 值 和 C 字 符 串 值 


与 此 类 似 ， 我 们 还 可 以 将 一 个 保存 文本 数据 的 SDS 作 为 strcat 函 数 的 
第 二 个 参数 ， 将 SDS 保 存 的 字符 串 退 加 到 一 个 C 字 符 串 的 后 面 : 





strcat(c_string, sds->buf); 
这 样 Redis 就 不 用 专门 编写 一 个 将 SDS 字 符 串 妃 加 到 C 字 符 串 之 后 的 
函数 了 。 


通过 遵循 C 字 符 串 以 空 字 符 结 尾 的 惯例 ，SDS 可 以 在 有 需要 时 重用 
<string.h> 函 数 库 ， 从 而 避免 了 不 必要 的 代码 重复 。 


2.2.6 总 结 


表 2-1 对 C 字 符 串 和 SDS 之 间 的 区 别 进行 了 总 结 。 








表 2-1 C 字 符 串 和 SDS 之 间 的 区 别 


C 字符 趾 SDS 
获取 字符 串 长 度 的 复杂 度 为 O(N) 获取 字符 串 长 度 的 复杂 度 为 OU) 
API 是 不 安全 的 ， 可 能 会 造成 级 冲 区 溢出 API 是 安全 的 ， 不 会 和 成 级 冲 区 温 册 
修改 字 御 电 长 度 遇 次 必然 需要 执行 次 内 存 重 分 配 | 眉 改 字符 惠 长 度 次 最 多 需要 执行 次 内 存 重 分 配 
只 能 保存 文本 数据 可 以 保存 文本 或 者 二 进 制 数据 


可 以 使 用 所 有 <string.h> 库 中 的 函数 可 以 使 用 一 部 分 <string,h> 库 中 的 函数 


2.3 SDS API 
表 2-2 列 出 了 SDS 的 主要 操作 API。 
表 2-2 ”SDS 的 主要 操作 API 
T i 
sdsnew 创建 一 个 包含 给 定 C 字符 串 的 SDS ON 为 给 定 C 字符 串 的 长 度 
shay 0 
sdsfree ON 为 裤 稳 放 SDS 的 长 度 


sdslen 返回 SDS 的 已 使 用 空间 字 书 数 本 的 lan 风 必 来 
这 个 值 可 以 通过 读 取 SDS 的 free 属性 

来 再 捷 效 得， 复杂 度 为 00) 

sdsdup 创建 一 个 给 定 SDS 的 副本 ( copy ) ON 为 帮 定 SDS 的 长 度 

sdsclear 清 宅 SDS 保存 的 字符 中 内 容 因为 情 性 空间 释放 策略 ， 复 杂 度 为 O(1) 

sdscat 将 给 定 C 宇 符 串 拼接 到 SDS 罕 符 中 的 末 居 “| OUND，N 为 被 撞 搂 C 字符 串 的 长 度 





sdsavail 返回 SDS 的 未 使 用 空间 字 书 数 


将 给 定 SDS 字符 串 排 抱 到 另 一 个 SDS 字符 
的 末尾 


OUW，N 为 被 排挡 SDS 字符 串 的 长 度 


sdscatsds 





( 凡 





郧 数 作用 时 间 复杂 度 
将 给 定 的 C 字符 串 复制 到 SDS 里 面 ， 六 盖 i 
sdscpy 9D 所 的 人 O(N), 为 被 复制 C 宇 特惠 的 长 度 
sdsgrowzero | ”用 空 字符 将 SDS 扩展 至 给 定 长 度 O(N), 为 扩展 新 增 的 字 书 数 
保留 SDS 给 定 区 间 内 的 数据 ， 不 在 区 间 内 的 0 
sdsrange 和 提交 0 人， 为 征 保 国 数据 的 字 节 数 
到 ,大 一 个 和 字 人 4 参 
i 接受 一 个 SDS 和 一 个 C 字 符 趾 作为 参数 ， 从 0 证 C 字 你 


SDS 中 移 除 所 有 在 C 字符 串 中 出 现 过 的 字符 


OUW，N 为 两 个 SDS 中 较 短 的 那个 SDS 


sdscmp 对 比 两 个 SDS 字符 串 是 舍 相 同 抽 长 





2.4 重点 回顾 


-Redis 只 会 使 用 C 字 符 串 作为 字面 量 ， 在 大 多 数 情 况 下 ，Redis 使 用 
SDS (Simple Dynamic String， 人 简单 动态 字符 串 〉 作 为 字符 串 表 示 。 


比 起 C 字 符 串 ，SDS 具 有 以 下 优点 : 

1) 常数 复杂 度 获取 字符 串 长 度 。 

杜绝 缓冲 区 溢出。 

3) 减少 修改 字符 串 长 度 时 所 需 的 内 存 重 分 配 次 数 。 
4) 二 进 制 安全 。 


5) 羔 容 部 分 C 字 符 串 函数 。 











Wa 


2 
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2.5 “参考 资料 


.《C 语 言 接口 与 实现 : 创建 可 重用 软件 的 技术 》 一 书 的 第 15 章 和 第 
16 章 介绍 了 一 个 和 SDS 类 似 的 通用 字符 串 实 现 。 


维基 百科 的 Binary ”Safe 词 条 (http://en.wikipedia.org/wiki/Binary- 
safe) 和 http://computer.yourdictionary.com/binary-safe 给 出 了 二 进 制 安 全 
的 定义 。 


-维基 百科 的 Null-terminated ”string 词 条 给 出 了 空 字符 结尾 字符 串 的 
定义 ， 说 明了 这 种 表示 的 来 源 ， 以 及 C 语 言 使 用 这 种 字符 串 表 示 的 历史 
原因 : http://en.wikipedia.org/wiki/Null-terminated_string 


`.《C 标 准 库 》 一 书 的 第 14 章 给 出 了 标准 库 所 有 API 的 介绍 ， 以 及 这 
些 API 的 基础 实现 。 


-GNU C 库 的 主页 上 提供 了 GNU C 标 准 库 的 下 载 包 ， 其 中 的 /string 文 
件 夹 包含 了 所 有 API 的 完整 实现 : http:/www.gnu.org/software/libc 








第 3 章 ”链表 


链表 提供 了 高 效 的 节点 重 排 能 力 ， 以 及 顺序 性 的 市 点 访问 方式 ， 并 
且 可 以 通过 增 删 和 布点 来 灵活 地 调整 链表 的 长 度 。 


作为 一 种 第 用 数据 结构 ， 链 表 内 置 在 很 多 高 级 的 编程 语言 里 面 ， 因 
为 Redis 使 用 的 C 语 言 并 没有 内 置 这 种 数据 结构 ， 所 以 Redis 构 建 了 自己 
的 链表 实现 。 


链表 在 Redis 中 的 应 用 非常 广泛 ， 比 如 列表 键 的 底层 实现 之 一 就 是 
链表 。 当 一 个 列表 键 包 含 了 数量 比较 多 的 元 素 ， 又 或 者 列表 中 包含 的 元 
素 都 是 比较 长 的 字符 串 时 ，Redis 就 会 使 用 链表 作为 列表 键 的 底层 实 
现 。 








举 个 例子 ， 以 下 展示 的 integers 列 表 键 包含 了 从 1 到 1024 共 一 干 零 二 
十 四 个 整数 : 


rE 


integer) 1 
edis> LRANGE integers 0 10 


r 
业 


OONONAON 


pp 
Po-—_—_——_—— 
EE 


上 
9 





integers 列 表 键 的 底层 实现 就 是 一 个 链表 ， 链 表 中 的 每 个 节点 都 保存 
本 一 个 吾 效 值 : 


除了 链表 键 之 外 ， 发 布 与 订阅 、 慢 碍 询 、 监 视 器 等 功能 也 用 到 了 链 
表 ，Redis 服 务 串 本 身 还 使 用 链表 来 保存 多 个 客户 端的 状态 信息 ， 以 及 
使 用 链表 来 构建 客户 端 输出 缓冲 区 〈output buffer) ， 本 书后 续 的 章节 
将 陆续 对 这 些 链表 应 用 进行 介绍 。 


本 章 接 下 来 的 内 容 将 对 Redis 的 链表 实现 进行 介绍 ， 并 列 出 相应 的 
链表 和 链表 市 点 API。 


因为 已 经 有 很 多 优秀 的 算法 书籍 对 链表 的 基本 定义 和 相关 算法 进行 











了 详细 的 讲解 ， 所 以 本 章 不 会 介绍 这 些 内 容 ， 如 果 不 具 备 关 于 链表 的 基 
本 知识 的 话 ， 可 以 参考 《算法 : C 语 言 实 现 〈 第 1 一 4 部 分 ) 》 一 书 的 3.3 
至 3.5 节 ， 或 者 《数据 结构 与 算法 分 析 : C 语 言 描述 》 一 书 的 3.2 节 ， 又 或 
者 《算法 导论 〈 第 三 版 ) 》 一 书 的 10.2 节 。 


3.1 ”链表 和 链表 节点 的 实现 


每 个 链表 节点 使 用 一 个 adlist.h/listrNode 结 构 来 表示 : 





typedef struct listNode { 
2 
前 置 节 点 
struct listNode * prev; 
2 
后 置 节 点 
struct listNode * next; 
// 
节点 的 值 
void * value; 
}listNode; 





多 个 listNode 可 以 通过 prev 和 next 指 针 组 成 双 端 链表 ， 如 图 3-1 所 





图 3-1 由 多 个 listNode 组 成 的 双 端 链表 


里 然 仪 仪 使 用 多 个 listrNode 结 构 就 可 以 组 成 链表 ， 但 使 用 adlist.h/list 
来 持 有 链表 的 话 ， 操 作 起 来 会 更 方便 : 





typedef struct list { 
// 
头 节 点 
listNode * head; 
元 


节点 
listNode * tail; 
// 
链表 所 包含 的 节点 数量 
ysgned long len; 


节点 传 复制 函数 
void *(*dup)(void *ptr); 
A 


节点 值 释放 函数 
void (*free)(void *ptr); 


2 
节点 值 对 比 函 


nk | *ptr,void *key); 
.List 





list 结 构 为 链表 提供 了 表 头 指针 head、 表 尾 指针 tail， 以 及 链表 长 度 
计数 右 len， 而 dup、free 和 match 成 员 则 是 用 于 实现 多 态 链表 所 需 的 类 型 








特定 函数 : 

数 用 于 复制 链表 市 点 所 保存 的 值 ; 

“free 函 数 用 于 释放 链表 节点 所 保存 的 值 ; 

-match 哨 数 则 用 于 对 比 链表 市 点 所 保存 的 值 和 男 一 个 输入 值 是 舍 相 


“dup 后 
函 


图 3-2 是 由 一 个 list 结 构 和 三 个 listNode 结 构 组 成 的 链表 。 





图 3-2 ”由 list 结 构 和 listrNode 结 构 组 成 的 链表 
Redis 的 链表 实现 的 特性 可 以 总 结 如 下 : 


双 端 : 链表 节点 带 有 prev 和 next 指 针 ， 获 取 东 个 节点 的 前 置 节 点 和 
后 置 节 点 的 复杂 度 都 是 DO (1) 。 


:无 环 : 表 头 节 扣 的 prev 指 针 和 表 尾 节点 的 next 指 针 都 指向 NULL， 
对 链表 的 访问 以 NULL 为 终点。 


. 带 表 头 指针 和 表 尾 指针 : 通过 list 结 构 的 head 指 针 和 tail 指 针 ， 程 序 
获取 链表 的 表 头 节点 和 表 尾 节点 的 复杂 度 为 0 〈1) 。 


. 带 链 表 长 度 计 数 器 : 程序 使 用 list 结 构 的 len 属 性 来 对 list 持 有 的 链表 

















节点 进行 计数 ， 程 序 获取 链表 中 节操 数量 的 复杂 上 度 为 O (1) 。 


.多 态 : 链表 节点 使 用 void* 指 针 来 保存 节点 值 ， 并 且 可 以 通过 list 结 
构 的 dup、free、match 三 个 属性 为 节点 值 设 置 类 型 特定 函数 ， 所 以 链表 
可 以 用 于 保存 各 种 不 同类 型 的 值 。 


3.2 ”链表 和 链表 节点 的 API 
表 3-1 列 出 了 所 有 用 于 操作 链表 和 链表 节点 的 API。 
表 3-1 ”链表 和 链表 节点 API 


型 时 


| 复制 函数 可 以 通过 链表 的 dup 
' 人 At 人 \ ) 人 占 3 
listSetDupMethod 将 给 定 的 函数 设置 为 链表 的 节点 值 复制 函数 网 站,00) 


listGetDupMethod 返 四 链表 当前 正在 使 用 的 节点 但 复制 了 数 Ol) 


释放 函数 可 以 通过 链表 的 free 
listSetFreeMethod | 将 给 定 的 阴 数 设置 为 链表 的 节点 值 释放 蜀 数 性交 得 0 


listGetFree 返 四 链表 当前 正在 使 用 的 节点 值 释放 函数 0 


oe 对 比 函数 可 以 通过 链表 的 match 
listSetMatchMethod | 将 给 定 的 函数 设置 为 链表 的 节点 值 对 比 函 娄 性 和 0 wm 


listGetMatchMethod | 返回 链表 当前 正在 使 用 的 节点 值 对 比 函数 0 











下 数 


listLength 


listFirst 


listLast 


listprevNode 


listNextNode 


listNodeValue 


listCreate 


作用 
返回 链表 的 长度 { 包含 了 多 少 个 节点 ) 


返回 给 定 节 点 目前 正在 保存 的 信 
创建 一 个 不 包含 任何 节点 的 新 链表 





( 续 ) 
时 间 复杂 度 

链表 长 度 可 以 通过 链表 的 len 
属性 直接 获得 ，O() 

表 头 节点 可 以 通过 链表 的 head 
属性 直接 获得 ，OU) 

表 尾 节点 可 以 通过 链表 的 tail 
属性 直 按 获得 ，O() 

前 置 节点 可 以 通过 节点 的 prev 
属性 直接 获得 ，Q(1) 

后 置 节点 可 以 通过 节点 的 next 
属性 下 按 获得 ，O() 

节点 值 可 以 通过 书 点 的 Value 
属性 直接 获得 ，O() 

Ol) 


listAddNodeHead 


listAddNodeTail 


listInsertNode 


listSearchKey 
listIndex 
listDelNode 


listRotate 


listDup 


listRelease 


将 一 个 包含 给 定 值 的 新 节点 添加 到 给 定 链表 
的 表 头 
将 一 个 包含 给 定 值 的 新 节点 添加 到 给 定 链表 
的 表 尼 


将 一 个 包含 给 定 值 的 新 节点 添加 到 给 定 节点 
的 之 前 或 者 之 后 
查找 并 返回 链表 中 包含 给 定 人 的 节点 


将 链表 的 表 尾 节点 弹出 ， 然 后 将 被 于 出 的 节 





具 揪 入 到 艰 表 的 表 头 ， 成 为 新 的 表 闷 节 


复制 一 个 给 定 链 表 的 副本 


稳 放 给 中 链表 ， 以 及 链表 中 的 所 有 节点 





O(N), 蚤 为 链表 发 有 
OW), W 姑 授 表 长 度 
OW), 如 表 长 有 
O) 


O(N), WR 放 链表 长 度 
0W，N 为 链 趟 长 度 


3.3 重点 回顾 


链表 被 广泛 用 于 实现 Redis 的 各 种 功能 ， 比 如 列表 键 、 友 布 与 订 
阅 、 慢 查询 、 监 视 嚣 等。 


-每 个 链表 蔬 氮 由 一 个 listNode 纺 构 来 表示 ， 每 个 节点 都 有 一 个 指 回 
前 置 节点 和 后 置 节点 的 指针 ， 所 以 Redis 的 链表 实现 是 双 端 链表 。 


每 个 链表 使 用 一 个 list 结 构 来 表示 ， 这 个 结构 带 有 表 头 节点 指针 、 
表 尾 市 把 指 针 ， 以 及 链表 长 度 等 信息 。 


.因为 链表 表 头 节点 的 前 置 节点 和 表 尾 节点 的 后 置 节点 都 指向 
NULL， 所 以 Redis 的 链表 实现 是 无 环 链表 。 


通过 为 链表 设置 不 同 的 类 型 特定 函数 ，Redis 的 链表 可 以 用 于 保存 
各 种 不 同类 型 的 值 。 











站 


往生 As 


第 4 章 ”字典 


字典 ， 又 称 为 符号 表 (symbol table〉、 关 联 数 组 (associative 
array) 或 映射 (map) ， 是 一 种 用 于 保存 键 值 对 (key-value pair) 的 抽 
象 数据 结构 。 


在 字典 中 ， 一 个 键 (key) 可 以 和 一 个 值 (value〉 进 行 关联 (或 者 
说 将 键 映 射 为 值 ) ， 这 些 关 联 的 键 和 值 就 称 为 键 值 对 。 


字典 中 的 每 个 键 者 是 独一无二 的 ， 程 序 可 以 在 字典 中 根据 键 奋 找 与 
立交 联 的 值 ， 或 首 通过 键 来 更 新 值 ， 广 或 者 根据 键 来 删除 茎 个 键 什 对， 








字典 经 常 作为 一 种 数据 结构 内 置 在 很 多 高 级 编程 语言 里 面 ， 但 
Redis 所 使 用 的 C 语 言 并 没有 内 置 这 种 数据 结构 ， 因 此 Redis 构 建 了 目 己 
的 字典 实现 。 

字典 在 Redis 中 的 应 用 相当 广泛 ， 比 如 Redis 的 数据 库 就 是 使 用 字典 
来 作为 底层 实现 的 ， 对 数据 库 的 增 、 删 、 查 、 改 操作 也 是 构建 在 对 字典 
的 操作 之 上 的 。 


举 个 例子 ， 当 我 们 执行 命令 : 








redis> SET msg "hello world" 
OK 


在 数据 库 中 创建 一 个 键 为 "msg"， 值 为 "hello world" 的 键 值 对 时 ， 这 
个 键 值 对 就 是 保存 在 代表 数据 库 的 字典 里 面 的 。 


除了 用 来 表示 数据 库 之 外 ， 字 典 还 是 哈 希 键 的 底层 实现 之 一 ， 当 一 
个 哈 希 键 包含 的 键 值 对 比较 多 ， 又 或 者 键 值 对 中 的 元 素 都 是 比较 长 的 字 
符 串 时 ，Redis 束 会 使 用 字典 作为 哈 希 键 的 感 层 实现 。 


举 个 例子 ，website 是 一 个 包含 10086 个 键 值 对 的 哈 希 键 ， 这 个 哈 希 
键 的 键 都 是 一 些 数据 库 的 名 字 ， 而 键 的 值 就 是 数据 库 的 主页 网 址 : 








redis> HLEN website 


(integer) 10086 
redis> HGETALL website 
isn 


ariaDB" 
"MariaDB.org" 


0 
ongoDB .org" 








website 键 的 底层 实现 残 是 一 个 字典 ， 字 上 典 中 包含 了 10086 个 键 值 
对 ， 例如 : 


: 刍 值 对 的 键 为 "Redis"， 值 为 "Redis.io"。 
` 键 值 对 的 键 为 "MariaDB"， 值 为 "MariaDB.org"; 
: 键 值 对 的 键 为 "MongoDB"， 值 为 "MongoDB.org"; 


除了 用 来 实现 数据 库 和 哈 希 键 之 外 ，Redis 的 不 少 功能 也 用 到 了 字 
典 ， 在 后 续 的 章节 中 会 不 断 地 看 到 字典 在 Redis 中 的 各 种 不 同 应 用 。 


本 章 接 下 来 的 内 容 将 对 Redis 的 字典 实现 进行 详细 介绍 ， 并 列 出 字 
典 的 操作 API。 本 章 不 会 对 字典 的 基本 定义 和 基础 算法 进行 介绍 ， 如 果 
有 需要 的 话 ， 可 以 参考 以 下 这 些 资料 : 


维基 百科 的 Associative Array 词 条 
(http://en.wikipedia.org/wiki/Associative_array) 和 Hash Table 词 条 


Chttp:/en.wikipedia.org/wiki/Hash_table) 。 
-.《 算 法: C 语 言 实现 〈 第 1 一 4 部 分 ) 》 一 书 的 第 14 章 。 


《算法 导论 (第 三 版 )》 一 书 的 第 11 章 。 


4.1 字典 的 实现 


Redis 的 字典 使 用 哈 希 表 作 为 底层 实现 ， 一 个 哈 希 表 里 面 可 以 有 多 
个 蛤 希 表 市 皮 ， 而 每 个 哈 希 表 节 点 就 保存 了 字典 中 的 一 个 键 值 对 。 


接 下 来 的 三 个 小 节 将 分 别 介绍 Redis 的 哈 希 表 、 哈 希 表 节点 以 及 字 
典 的 实现 。 


411 惨 希 堆 


Redis 字 典 所 使 用 的 哈 希 表 由 dict.h/dictht 结 构 定 义 : 














typedef struct dictht { 
7 

哈 希 表 数 组 
dictEntry **table; 
2 

哈 希 表 大 小 
unsigned long size; 











-1 
哈 希 表 大 小 掩 码 ， 用 于 计算 索引 值 
A 














table 属 性 是 一 个 数组 ， 数 组 中 的 每 个 元 素 都 是 一 个 指向 
dict.h/dictEntry 结 构 的 指针 ， 每 个 dictEntry 结 构 保 存 着 一 个 键 值 对 。size 
属性 记录 了 哈 希 表 的 大 小 ， 也 即 是 table 数 组 的 大 小 ， 而 used 属 性 则 记录 
了 哈 希 表 目 前 已 有 市 点 〈 键 值 对 〉 的 数量 。sizemask 属 性 的 值 总 是 等 于 
size-1， 这 个 属性 和 哈 希 值 一 起 决定 一 个 键 应 该 被 放 到 table 数 组 的 哪个 
索引 上 面 。 


图 4-1 展 示 了 一 个 大 小 为 4 的 空 喻 硕 表 (没有 包含 任何 键 值 对 〉。 

















Size 
4 
sizemask 
人 
used 
0 
4.1.2” 哈 希 表 节点 


哈 希 表 节 点 使 用 dictEntry 结 构 表 示 ， 每 个 dictEntry 结 构 都 保存 着 一 
个 键 值 对 : 








NULL 


dictEntry” [4] 


NULL 





NULL 


NULL 


图 4-1 一 个 空 的 哈 希 表 





typedef struct dictEntry { 
/1 


}v; 
a 
指向 下 个 哈 希 表 节 点 ， 形 成 链表 
truct dictEntry *next; 
} dictEntry 





key 属 性 保存 着 键 值 对 中 的 键 ， 而 v 属 性 则 保存 着 键 值 对 中 的 值 ， 其 
中 键 值 对 的 值 可 以 是 一 个 指针 ， 或 者 是 一 个 uint64 t 整 数 ， 又 或 者 是 一 
个 int64 {t 整 数 。 


next 属 性 是 指向 男 一 个 哈 希 表 节 扣 的 指针 ， 这 个 指针 可 以 将 多 个 蛤 
希 值 相 同 的 键 值 对 连接 在 一 次 ， 以 此 来 解决 键 冲 突 (collision〉 的 问 


大。o 


举 个 例子 ， 图 4-2 束 展示 了 如 何 通 过 next 指 针 ， 将 两 个 索引 值 相 同 的 








键 kl1 和 k0 连 接 在 一 起 。 







dictht 






dictEntry 


NULL 


S12zemask 
3 
used 
2 
NULL 


图 4-2 ”连接 在 一 起 的 键 K1 和 键 K0 





4.1.3 字典 


Redis 中 的 字典 由 dict.h/dict 结 构 表 示 : 





typedef struct dict { 


类 型 特定 函数 
dictType *type; 


2 
私有 数据 

void 

// 


*privdata; 
哈 
dictht ht[2]; 
// rehash 
索引 
A 
当 rehash 
不 在 进行 时 ， 值 为 -1 
i hidx; /* rehashing not in progress if rehashidx == -1 */ 
} dict: 





type 属 性 和 privdata 属 性 是 针对 不 同类 型 的 键 值 对 ， 为 创建 多 态 字 和 典 
而 设置 的 : 


-type 属性 是 一 个 指 同 dictType 结 构 的 指针 ， 每 个 dictType 结 构 保 存 了 
一 徐 用 于 操作 特定 类 型 键 值 对 的 函数 ，Redis 会 为 用 途 不 同 的 字典 设置 
不 同 的 类 型 特定 函数 。 





:而 privdata 属 性 则 保存 了 需要 传 给 那些 类 型 特定 图 数 的 可 选 参数 。 





typedef struct dictType { 


计算 哈 希 值 的 函数 
unsigned int (*hashFunction)(const void *key); 


// 
复制 键 的 函数 
void *(*keyDup)(void *privdata, const void *key); 
// 
复制 值 的 函数 
void *(*valDup)(void *privdata, const void *obj); 
/ 
对 比 键 的 函数 
int (*keyCompare)(void *privdata, const void *key1, const void *key2); 
// 


销毁 键 的 函数 
void (*keyDestructor)(void *privdata, void *key); 








销毁 值 的 函数 
void (*valDestructor)(void *privdata, void *obj); 
} dictType; 








ht 属性 是 一 个 包含 两 个 项 的 数组 ， 数 组 中 的 每 个 项 都 是 一 个 dictht 哈 
锅 表 ， 一 般 情况 下 ， 字 典 只 使 用 ht[0] 哈 希 表 ，ht[1] 哈 希 表 只 会 在 对 ht[0] 
哈 希 表 进 行 rehash 时 使 用 。 


除了 ht[1] 之 外 ， 另 一 个 和 rehash 有 关 的 属性 就 是 rehashidx， 它 记录 
了 rehash 目 前 的 进度 ， 如 果 目 前 没有 在 进行 rehash， 那 么 它 的 值 为 -1。 


图 4-3 展 示 了 一 个 普通 状态 下 《没有 进行 rehash) 的 字典 。 











dict 
type 


privdata 


oY 


rehashidx 
-|] 


ht [0] 


ht [1] 


dictht 
table dictEntry" [4] 
Size 


1 
Slzemask 


used 


dictht 
table NULL 


Slze 


slzemask 


used 


Ca) 


图 4-3 ”普通 状态 下 的 字典 


站 


NULL 


NULL 
NULL 
NULL 


4.2”， 哈 荐 算法 

当 要 将 一 个 新 的 键 值 对 添加 到 字典 里 面 时 ， 程 序 需要 先 根据 键 值 对 
的 键 计算 出 哈 希 值 和 索引 值 ， 然 后 再 根据 索引 值 ， 将 包含 新 键 值 对 的 哈 
希 表 节点 放 到 哈 希 表 数 组 的 指定 索引 上 面 。 


Redis 计 算 哈 希 值 和 索引 值 的 方法 如 下 : 











# 

使 用 字典 设置 的 哈 希 函数 ， 计 算 刍 key 
的 哈 希 值 
hash = dict->type->hashFunction(key ) ; 
# 














使 用 哈 希 表 的 sizemas k 
属性 和 哈 希 值 ， 计 算出 索引 值 
# 








根据 情况 不 同 ，ht [x] 
可 以 是 ht [9] 

或 者 ht[1] 
index = hash & dict->ht[x].sizemask; 



















NULL 
type 
sizemask 
h 
NULL 


used 
0 


rehashidx 
-| 
图 4-4” 空 字典 


举 个 例子 ， 对 于 图 4-4 所 示 的 字典 来 说 ， 如 果 我 们 要 将 一 个 刍 值 对 
k0 和 v0 添加 到 字典 里 面 ， 那 么 程序 会 先 使 用 语句 ， 





hash = dict->type->hashFunction(k9) ; 


计算 键 k0 的 哈 希 值 。 
假设 计算 得 出 的 哈 希 值 为 9， 那么 程序 会 继续 使 用 语句 : 


index = hash&dict->ht[0].sizemas k=8&3=0; 


计算 出 键 k0 的 索引 值 0， 这 表示 包含 键 值 对 k0 和 v0 的 节点 应 该 被 放 
置 到 哈 希 表 数 组 的 索引 0 位 置 上 ， 如 图 4-5 所 示 。 


NULL 












sizemask 
3 
used 
1 


图 4-5 ”添加 键 值 对 KO 和 v0 之 后 的 字典 


当 字 典 被 用 作 数 据 库 的 底层 实现 ， 或 者 哈 希 键 的 底层 实现 时 ， 
Redis 使 用 MurmurHash2 算 法 来 计算 键 的 哈 希 值 。 


MurmurHash 算 法 最 初 由 Austin Appleby 于 2008 年 发 明 ， 这 种 算法 的 
优点 在 于 ， 即 使 输入 的 键 是 有 规律 的 ， 算 法 仍 能 给 出 一 个 很 好 的 随机 分 


ht 


rehashidx 
-] 





布 性 ， 并 且 算 法 的 计算 速度 也 非常 快 。 


MurmurHash 算 法 目前 的 最 新 版 本 为 MurmurHash3， 而 Redis 使 用 的 
是 MurmurHash2， 关 于 MurmurHash 算 法 的 更 多 信息 可 以 参考 该 算法 的 
主页 : http://code.google.com/p/smhasher/。 


4.3 ”解决 键 冲 突 


当 有 两 个 或 以 上 数量 的 键 被 分 配 到 了 哈 希 表 数 组 的 同一 个 索引 上 面 
时 ， 我 们 称 这 些 键 友 生 了 冲突 (collision)。 


Redis 的 哈 希 表 使 用 链 地 址 法 (separate ”chaining) 来 解决 键 冲 突 ， 
每 个 哈 希 表 节 点 都 有 一 个 next 指 针 ， 多 个 哈 希 表 贡 点 可 以 用 next 指 针 构 
成 一 个 单身 链表 ， 被 分 配 到 同一 个 索引 上 的 多 个 节点 可 以 用 这 个 单 癌 链 
表 连 接 起 来 ， 这 就 解决 了 键 冲突 的 问题 。 


举 个 例子 ， 假 设 程序 要 将 键 值 对 k2 和 v2 添加 到 图 4-6 所 示 的 哈 希 表 
里 面 ， 并 且 计算 得 出 k2 的 索引 值 为 2， 那 么 键 kK1 和 k2 将 产生 冲突 ， 而 解 
如 图 
4-7 所 不 。 








为 dictEntry 市 点 组 成 的 链表 没有 指向 链表 表 尾 的 指针 ， 所 以 为 了 
速度 考 碟 ， 程 序 总 是 将 新 节点 添加 到 链表 的 表 头 位 置 《复杂 上 度 为 
O (1) ) ， 排 在 其 他 己 有 节点 的 前 面 。 













dictEntry 


NULL 
图 4-6 ”一 个 包含 两 个 键 值 对 的 哈 希 表 







dictht dictEntry NULL 






Sizemask 
3 
used 
3 
NULL 


图 4-7 ”使 用 链表 解决 2 和 k1 的 冲突 


4.4 rehash 


随 着 操作 的 不 断 执行 ， 哈 希 表 保 存 的 键 值 对 会 逐渐 地 增多 或 者 减 
少 ， 为 了 让 哈 希 表 的 负载 因子 (load ”factor) 维持 在 一 个 合理 的 范围 之 
内 ， 当 哈 希 表 保存 的 键 值 对 数量 太 多 或 者 太 少 时 ， 程 序 需 要 对 哈 希 表 的 
大 小 进行 相应 的 扩展 或 者 收缩 。 


扩展 和 收缩 哈 希 表 的 工作 可 以 通过 执行 rehash 〈 重 新 散 列 ) 操作 来 
完成 ，Redis 对 字典 的 哈 希 表 执 行 rehash 的 步骤 如 下 : 


1) 为 字典 的 ht[1] 哈 希 表 分 配 空间 ， 这 个 哈 希 表 的 空间 大 小 取决 于 
0 的 操作 ， 以 及 ht[0] 当 前 包 售 的 键 值 对 数量 (也 即 是 ht[0].used 属 性 
J] 值 〉: 


.如 果 执 行 的 是 扩展 操作 ， 那 么 ht[1] 的 大 小 为 第 一 个 大 于 等 于 
ht[0].used*2 的 2" (2 的 n 次 方 守 ) ; 


:如果 执行 的 是 收缩 操作 ， 那 么 ht[1] 的 大 小 为 第 一 个 大 于 等 于 
ht[0].used 的 2 "。 


2) 将 保存 在 ht[0] 中 的 所 有 键 值 对 rehash 到 ht[1] 上面， rehash 指 的 是 
ee 然后 将 键 值 对 放置 到 ht[1] 哈 希 表 的 指定 
yA 


3) 当 ht[0] 包 含 的 所 有 和 键 值 对 都 迁移 到 了 ht[1] 之 后 (ht[0] 变 为 空 
表 ) ， 释 放 ht[0]， 将 ht[1] 设 置 为 ht[0]， 并 在 ht[1] 新 创建 一 个 空白 哈 希 
表 ， 为 下 一 次 rehash 做 准备 。 


举 个 例子 ， 假 设 程序 要 对 图 4-8 所 示 字 典 的 ht[0] 进 行 扩展 操作 ， 那 
么 程序 将 执行 以 下 步骤: 
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图 4-8 执行 rehash 之 前 的 字典 
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1) ht[0].used 当 前 的 值 为 4，4*2=8， 而 8 (2 ;) 恰好 是 第 一 个 大 于 等 
于 4 的 2 的 n 次 方 ， 所 以 程序 会 将 ht[1] 哈 希 表 的 大 小 设置 为 8。 图 4-9 展 示 


了 ht[1] 在 分 配 空间 之 后 ， 字 典 的 样子 。 
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图 4-9 ”为 字典 的 ht[1] 哈 希 表 分 配 空间 


2) 将 ht[0] 包 含 的 四 个 键 值 对 都 rehash 到 ht[1]， 如 图 4-10 所 示 。 
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图 4-10 ht[0] 的 所 有 键 值 对 都 已 经 被 迁移 到 ht[1] 
3) 释放 ht[0]， 并 将 ht[1] 设 置 为 ht[0]， 然 后 为 ht[1] 分 配 一 个 空白 哈 


希 表 ， 如 图 4-11 所 示 。 人 至 此 ， 对 哈 布 表 的 扩展 操作 执行 完毕 ， 程 序 成 功 
将 喻 希 表 的 大 小 从 原来 的 4 改 为 了 现在 的 8。 
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图 4-11 完成 rehash 之 后 的 字典 
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哈 希 表 的 扩展 与 收缩 


当 以 下 条 件 中 的 任意 一 个 被 满足 时 ， 程 序 会 自动 开始 对 哈 希 表 执 行 
扩展 操作 : 


1) 服务 器 目前 没有 在 执行 BGSAVE 命 令 或 者 BGREWRITEAOF 命 





仿 


， 并 且 哈 希 表 的 负载 因 了 于 大 于 等 于 1。 


2) 服务 器 目前 正在 执行 BGSAVE 命 令 或 者 BGREWRITEAOF 命 
， 并 且 哈 希 表 的 负载 因子 大 于 等 于 5。 


其 中 哈 希 表 的 负载 因 于 可 以 通过 公式 : 





心 


计算 得 出 。 


例如 ， 对 于 一 个 大 小 为 4， 包 含 4 个 键 值 对 的 喻 希 表 来 说 ， 这 个 蛤 希 
表 的 负载 因子 为 : 





load factor =4/4=1 


又 例如 ， 对 于 一 个 大 小 为 512， 包 含 256 个 键 值 对 的 哈 希 表 来 说 ， 这 
个 蛤 希 表 的 负载 因子 为 : 


load_factor = 256 / 512 = 0.5 





根据 BGSAVE 命 令 或 BGREWRITEAOF 命 令 是 否 正 在 执行 ， 服务 器 
执行 扩展 操作 所 需 的 负载 因子 并 不 相同 ， 这 是 因为 在 执行 BGSAVE 命 令 
或 BGREWRITEAOF 命 令 的 过 程 中 ，Redis 需 要 创建 当前 服务 器 进程 的 子 
进程 ， 而 大 多 数 操作 系统 都 采用 写 时 复制 (copy-on-write〉 技 术 来 优化 
子 进程 的 使 用 效率 ， 所 以 在 子 进程 存在 期 间 ， 服 务 器 会 提高 执行 扩展 操 
作 所 需 的 负载 因子 ， 从 而 尽 可 能 地 避免 在 子 进程 存在 期 间 进行 哈 希 表 扩 
展 操 作 ， 这 可 以 避免 不 必要 的 内 存 写 入 操作 ， 最 大 限度 地 节约 内 存 。 


为 一 方面 ， 当 哈 希 表 的 负载 因子 小 于 0.1 时 ， 程 序 自动 开始 对 蛤 希 
表 执 行 收缩 操作 。 





4.5 渐进 式 rehash 


上 一 节 说 过 ， 扩 展 或 收缩 哈 希 表 需 要 将 ht[0] 里 面 的 所 有 键 值 对 
rehash 到 ht[1] 里 面 ， 但 是 ， 这 个 rehash 动 作 并 不 是 一 次 性 、 集 中式 地 完成 
的 ， 而 是 分 多 次 、 渐 进 式 地 完成 的 。 


这 样 做 的 原因 在 于 ， 如 果 ht[0] 里 只 保存 者 四 个 键 值 对 ， 那 么 服务 器 
可 以 在 瞬间 就 将 这 些 键 值 对 全 部 rehash 到 ht[1]; 但 是 ， 如 果 哈 希 表 里 保 
存 的 键 值 对 数量 不 是 四 个 ， 而 是 四 百 万 、 四 千 万 甚至 四 亿 个 键 值 对 ， 那 
么 要 一 次 性 将 这 些 键 值 对 全 部 rehash 到 ht[1] 的 话 ， 庞 大 的 计算 量 可 能 会 
导致 服务 器 在 一 段 时 间 内 停止 服务 。 


因此 ， 为 了 避免 rehash 对 服务 器 性 能 造成 影响 ， 服 务 器 不 是 一 次 性 
将 ht[0] 里 面 的 所 有 键 值 对 全 部 rehash 到 ht[1]， 而 是 分 多 次 、 渐 进 式 地 将 
ht[0] 里 面 的 键 值 对 慢 慢 地 rehash 到 jht[1]。 


以 下 是 哈 希 表 渐进 式 rehash 的 详细 步骤 : 
1)〉 为 ht[1] 分 配 空间 ， 让 字典 同时 持 有 ht[0] 和 ht[1] 两 个 哈 希 表 。 


2) 在 字典 中 维持 一 个 索引 计数 器 变量 rehashidx， 并 将 它 的 值 设置 
为 0， 表 示 rehash 工 作 正 式 开 始 。 


3) 在 rehash 进 行 期 间 ， 每 次 对 字典 执行 添加 、 删 除 、 碍 找 或 者 更 新 
操作 时 ， 程 序 除 了 执行 指定 的 操作 以 外 ， 还 会 顺带 将 ht[0] 哈 希 表 在 
rehashidx 索 引 上 的 所 有 键 值 对 rehash 到 ht[1]， 当 rehash 工 作 完 成 之 后 ， 程 
序 将 rehashidx 属 性 的 值 增 一 。 


4) 随 着 字典 操作 的 不 断 执 行 ， 最 终 在 某 个 时 间 点 上 ，ht[0] 的 所 有 
键 值 对 都 会 被 rehash 至 ht[1]， 这 时 程序 将 rehashidx 属 性 的 值 设 为 -1， 表 
示 rehash 操 作 已 完成 。 


渐进 式 rehash 的 好 处 在 于 它 采 取 分 而 治之 的 方式 ， 将 rehash 键 值 对 
所 需 的 计算 工作 均 摊 到 对 字典 的 每 个 添加 、 删 除 、 碍 找 和 更 新 操作 上 ， 
从 而 避免 了 集中 式 rehash 而 带 来 的 庞大 计算 量 。 


图 4-12 至 图 4-17 展 示 了 一 次 完整 的 渐进 式 rehash 过 程 ， 注 意 观察 在 














整个 rehash 过 程 中 ， 字 典 的 rehashidx 属 性 是 如 何 变化 的 。 





dictEntry 


dictEntry 





















size 
4 
Slzemask 
3 
used 
4 
dictht 


dictEntry 






dictEntry 









rehashidx 
-1 








dictEntry 











1 


*[4] 
dictEntry*[8] 







8 
sizemask 
NULL 
wa | | 
, 
NULL 


图 4-12 ”准备 开始 rehash 
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图 4-13” ”rehash 索引 0 上 的 键 值 对 
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图 4-14” ”rehash 索引 1 上 的 键 值 对 
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图 4-15 
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图 4-16 
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图 4-17 rehash 执行 完毕 
渐进 式 rehash 执 行 期 间 的 哈 希 表 操 作 


因为 在 进行 渐进 式 rehash 的 过 程 中 ， 字 典 会 同时 使 用 ht[0] 和 ht[1] 两 
个 哈 硕 表 ， 所 以 在 渐进 式 rehash 进 行 期 间 ， 字 典 的 删除 〈delete) 、 碍 找 
(find) 、 更 新 〈update) 等 操作 会 在 两 个 哈 希 表 上 进行 。 例 如 ， 要 在 
字典 里 面 查 找 一 个 键 的 话 ， 程 序 会 先 在 ht[0] 里 面 进行 查找 ， 如 条 没 找到 
的 话 ， 就 会 继续 到 ht[1] 里 面 进 行 碍 找 ， 诸 如 此 类 。 


另外 ， 在 渐进 式 rehash 执 行 期 间 ， 新 添加 到 字典 的 键 值 对 一 律 会 被 
保存 到 ht[1] 里 面 ， 而 ht[0] 则 不 再 进行 任何 添加 操作 ， 这 一 措施 保证 了 
人 

代 衣 。 








4.6 字典 API 
表 4-1 列 出 了 字典 的 主要 操作 API。 


表 4-1 字典 的 主要 操作 API 





dictCreate 创建 一 个 新 的 字典 
dictAdd 将 给 定 的 键 值 对 添加 到 字典 里 面 
Eu 将 给 定 的 键 值 对 添加 到 字典 里 面 ， 如 果 键 已 经 

存在 于 字典 ,那么 用 新 值 取代 原 有 的 什 
dictFetchValue 返回 给 定 键 的 值 0() 
dictGetRandomKey | 。 从 字典 中 随机 返回 一 个 键 值 对 00) 





从 字典 中 删除 给 定 键 所 对 应 的 键 信 对 
释放 给 定 字 典 ， 以 及 字典 中 包含 的 所 有 刍 值 对 | CD，N 为 字典 包含 的 键 信 对 数量 


时 间 复 杂 度 







dictDelete 








dictRelease 


4.7 重点 回顾 
.字典 被 广泛 用 于 实现 Redis 的 各 种 功能 ， 其 中 包括 数据 库 和 哈 希 








Redis 中 的 字典 使 用 哈 希 表 作 为 底层 实现 ， 每 个 字典 带 有 两 个 哈 硕 
表 ， 一 个 平时 使 用 ， 力 一 个 仅 在 进行 rehash 时 使 用 。 


. 当 字 典 被 用 作 数 据 库 的 底层 实现 ， 或 者 哈 希 键 的 底层 实现 时 ， 
Redis 使 用 MurmurHash2 算 法 来 计算 键 的 哈 希 值 。 


哈 希 表 使 用 链 地 址 法 来 解决 键 冲 突 ， 被 分 配 到 同一 个 索引 上 的 多 
个 键 值 对 会 连接 成 一 个 单 癌 链表。 


:在 对 哈 希 表 进 行 扩 展 或 者 收缩 操作 时 ， 程 序 需要 将 现 有 哈 希 表 包 
含 的 所 有 和 键 值 对 rehash 到 新 哈 希 表 里 面 ， 并 有 日 这 个 rehash 过 程 并 不 是 一 
次 性 地 完成 的 ， 而 是 渐进 式 地 完成 的 。 








第 5 章 ”跳跃 表 


跳跃 表 〈skiplist) 是 一 种 有 序数 据 结构 ， 它 通过 在 每 个 节点 中 维持 
多 个 指 癌 其 他 节点 的 指针 ， 从 而 达到 快速 访问 市 点 的 目的 。 


跳跃 表 文 持平 均 O0〈logN) 、 最 十 O CN) 复杂 上 度 的 节点 查找 ， 还 可 
以 通过 顺序 性 操作 来 批量 处 理 市 皮 。 


在 大 部 分 情况 下 ， 跳 路 表 的 效率 可 以 和 平衡 树 相 媲美 ， 并 且 因 为 跑 
中 表 的 实现 比 平生 树 要 来 得 更 为 简单， 所 以 有 不 少 程序 部 使 用 哎 中 表 来 
: 蔡 平 衡 树 。 


Redis 使 用 跳跃 表 作为 有 序 集合 键 的 底层 实现 之 一 ， 如 果 一 个 有 序 
集合 包含 的 元 系数 量 比较 多 ， 叉 或 者 有 序 集 合 中 元 素 的 成 员 
(member) 是 比较 长 的 字符 串 时 ，Redis 就 会 使 用 跳跃 表 来 作为 有 序 集 
合 键 的 的 层 实现 。 


举 个 例子 ，fruit-price 是 一 个 有 序 集合 键 ， 这 个 有 序 集合 以 水 果 名 为 
成 员 ， 水 末 价 钱 为 分 值 ， 保 存 了 130 歼 水 果 的 价钱 ; 














redis> ZRANGE fruit-price © 2 WITHSCORES 
"banana" 


redis> ZCARD fruit-price 
(integer)130 





fruit-price 有 序 集合 的 所 有 数据 都 保存 在 一 个 跳跃 表 里 面 ， 其 中 每 个 
跳跃 表 节 点 (node〉 都 保存 了 一 球 水 果 的 价钱 信息 ， 所 有 水 末 按 价钱 的 
高 低 从 低 到 高 在 跳跃 表 里 面 排序 : 

跳跃 表 的 第 一 个 元 系 的 成 员 为 "banana"， 它 的 分 值 为 5; 

跳跃 表 的 第 二 个 元 系 的 成 员 为 "cherry"， 它 的 分 值 为 6.5; 

跳跃 表 的 第 三 个 元 素 的 成 员 为 "apple"， 它 的 分 值 为 8; 

和 和 链表、 字典 等 数据 结构 被 广泛 地 应 用 在 Redis 内 部 不 同 ，Redis 只 


在 两 个 地 方 用 到 了 跳跃 表 ， 一 个 是 实现 有 序 集合 键 ， 另 一 个 是 在 集群 节 
点 中 用 作 内 部 数据 结构 ， 除 此 之 外 ， 跳 跃 表 在 Redis 里 面 没 有 其 他 用 
途 。 本 章 将 对 Redis 中 的 跳跃 表 实 现 进 行 介绍 ， 并 列 出 跳跃 表 的 操作 
API。 本 章 不 会 对 跳跃 表 的 基本 定义 和 基础 算法 进行 介绍 ， 如 果 有 需要 
的 话 ， 可 以 参考 WilliamPugh 关 于 跳跃 表 的 论文 《Skip Lists:A 
Probabilistic Alternative to Balanced Trees》， 或 者 《算法 : C 语 言 实现 
(第 1 一 4 部 分 ) 》 一 书 的 13.5 节 。 


5.1 跳跃 表 的 实现 


Redis 的 跳跃 表 由 redis.h/zskiplistNode 和 redis.h/zskiplist 两 个 结构 定 
义 ， 其 中 zskiplistNode 结 构 用 于 表示 跳跃 表 节 点 ， 而 zskiplist 结 构 则 用 于 
保存 跳跃 表 节 点 的 相关 信息 ， 比 如 布点 的 数量 ， 以 及 指 问 表 头 节点 和 表 
尾 节 点 的 指针 等 等 。 











图 5-1 一 个 跳跃 表 





图 5-1 展 示 了 一 个 跳跃 表示 例 ， 位 于 图 片 最 左边 的 是 zskiplist 结 构 ， 
该 结构 包含 以 下 属性 : 


:header: 指 癌 跳跃 表 的 表 头 节点 。 
tail: 指 癌 跳跃 表 的 表 尾 节点 。 


-level: 记录 目前 跳 路 表 内 ， 层 数 最 大 的 那个 节操 的 层 数 〈 表 关节 
点 的 层 数 不 计算 在 内 ) 。 


length: 记录 跳跃 表 的 长 度 ， 也 即 是 ， 跳 路 表 目 前 包含 节点 的 数量 
( 表 头 节操 不 计算 在 内 ) 。 


位 于 zskiplist 结 构 右 方 的 是 四 个 zskiplistNode 结 构 ， 该 结构 包含 以 下 
性 : 


. 层 〈level) : 节点 中 用 L1、L2、L3 等 字样 标记 节点 的 各 个 层 ，L1 
代表 第 一 层 ，L2 代 表 第 二 层 ， 以 此 类 推 。 每 个 层 都 带 有 两 个 属性 : 前 进 
指针 和 跨度 。 前 进 指针 用 于 访问 位 于 表 尾 方 回 的 其 他 节点 ， 而 跨度 则 记 
录 了 前 进 指针 所 指 辐 节点 和 当前 节点 的 距离 。 在 上 面 的 图 片 中 ， 连 线 上 
融 有 数字 的 箭头 束 代 表 前 进 指 针 ， 而 那个 数字 就 是 跨度 。 当 程序 从 表 头 
同 表 尾 进行 裔 历时 ， 访 问 会 沿 着 层 的 前 进 指针 进行 。 

:后 退 (backward) 指针 : 节点 中 用 BW 字样 标记 节点 的 后 退 指针 ， 
a 
压 6 


:分 值 (score〉: 各 个 节点 中 的 1.0、2.0 和 3.0 是 节点 所 保存 的 分 值 。 
在 跳跃 表 中 ， 节 扣 按 各 目 所 保存 的 分 值 从 小 到 大 排列 。 


Ww Cobj) : 各 个 节点 中 的 o1、o2 和 o3 是 节点 所 保存 的 成 员 
对 家 。 

注意 表 头 节点 和 其 他 节点 的 构造 是 一 样 的 : 表 头 节 氮 也 有 后 退 指 
针 、 分 值 和 成 员 对 象 ， 不 过 表 头 节点 的 这 些 属 性 都 不 会 被 用 到 ， 上 所 以 图 
中 省 略 了 这 些 部 分 ， 只 显示 了 表 头 节点 的 各 个 层 。 


本 节 接 下 来 的 内 容 将 对 zskiplistNode 和 zskiplist 两 个 结构 进行 更 详细 
的 介绍 。 


5.1.1 跳跃 表 节 点 


跳跃 表 节 点 的 实现 由 redis.h/zskiplistrNode 结 构 定义 : 





























typedef struct zskiplistNode { 
Af 
层 
struct zskiplistLevel { 
前 进 指 针 
struct zskiplistNode *forward; 
FF 


后 退 指针 
struct zskiplistNode *backward; 
7 


分 值 


double score 
iA 
成 员 对 象 


robj *obj; 
} zskiplistNode; 


1. 层 


跳跃 表 节 点 的 level 数 组 可 以 包含 多 个 元 系 ， 每 个 元 系 都 包含 一 个 指 
回 其 他 节点 的 指针 ， 程 序 可 以 通过 这 些 层 来 加 快 访问 其 他 节点 的 速度 ， 
一 般 来 说 ， 层 的 数量 越 多 ， 访 问 其 他 节点 的 速度 就 越 快 。 


每 次 创建 一 个 新 跳跃 表 节 点 的 时 候 ， 程 序 都 根据 虹 次 定律 〈power 
law， 越 大 的 数 出 现 的 概率 越 小 ) 随机 生成 一 个 介 于 1 和 32 之 间 的 值 作 为 
level 数 组 的 大 小 ， 这 个 大 小 融 是 层 的 “高 度 ”。 


图 5-2 分 别 展示 了 三 个 高 度 为 1 层 、3 层 和 5 层 的 节点 ， 因 为 C 语 言 的 
数组 索引 总 是 从 0 开始 的 ， 所 以 节点 的 第 一 层 是 level[0]， 而 第 二 层 是 
level[1]， 以 此 类 推 。 


2. 前 进 指针 
每 个 层 都 有 一 个 指 同 表 尾 方 同 的 前 进 指针 (evel[i].forward 属 


性 ) ， 用 于 从 表 头 同 表 尾 方 辣 访 问 节 点 。 图 5-3 用 虚线 表示 出 了 程序 从 
表 涉 向 表 尾 方 同 ， 表 历 跳 跃 表 中 所 有 市 点 的 路 径 : 



































zsSkiplistNode 


0] 


图 5-2 带 有 不 同 层 高 的 节点 
: NULL 


SCOre 














图 5-3 ”过 历 整 个 跳跃 表 


1) 迭 代 程 序 首 先 访 问 跳跃 表 的 第 一 个 节点 〈 表 头 ) ， 然 后 从 第 四 
层 的 前 进 指针 移动 到 表 中 的 第 二 个 节点 。 


2) 在 第 二 个 市 把 时 ， 程 序 沿 着 第 二 层 的 前 进 指针 移动 到 表 中 的 第 


三 外 点 O 








3) 在 第 三 个 市 扣 时 ， 程 序 同 样 沿 着 第 二 层 的 前 进 指针 移动 到 表 中 
的 第 四 个 节点 。 


4) 当 程 序 再 次 沿 着 第 四 个 节点 的 前 进 指针 移动 时 ， 它 们 到 一 个 
NULL， 程 序 知道 这 时 已 经 到 达 了 跳跃 表 的 表 尾 ， 于 是 结束 这 次 裔 历 。 


3. 跨 度 
层 的 跨度 (level[i].span 属 性 ) 用 于 记录 两 个 节点 之 间 的 距离 : 
.两 个 节点 之 间 的 跨度 越 大 ， 它 们 相距 得 束 越 远 。 


WR 0 0 
人 局 。 











切 看 上 去 ， 很 容易 以 为 跨度 般 历 操 作 有 关 ， 但 实际 上 并 不 是 这 
样 ， 壳 历 操作 只 使 用 前 进 指 针 融 可 以 完成 了 ， 路 度 实际 上 是 用 来 计算 排 
位 (rank) 的 : 在 查找 某 个 节点 的 过 程 中 ， 将 沿途 访问 过 的 所 有 层 的 蜂 
度 累 计 起 来 ， 得 到 的 结果 惑 是 目标 节点 在 跳跃 表 中 的 排 位 。 


举 个 例子 ， 图 5-4 用 虚线 标记 了 在 跳跃 表 中 查找 分 值 为 3.0、 成 员 对 
象 为 03 的 市 点 时 ， 沿 途经 历 的 层 : 查找 的 过 程 只 经 过 了 一 个 层 ， 并 且 层 
的 跨度 为 ?3， 所 以 目标 节点 在 跳跃 表 中 的 排 位 为 3。 








NULL 


NULL 
NULL 


NULL 


NULL 





图 5-4 计算 节点 的 排 位 


再 举 个 例子 ， 图 5-5 用 虚线 标记 了 在 跳跃 表 中 查找 分 值 为 2.0、 成 员 
对 象 为 o2 的 节点 时 ， 沿 途经 历 的 层 : 在 查找 节点 的 过 程 中 ， 程 序 经 过 了 
两 个 跨度 为 1 的 节点 ， 因 此 可 以 计算 出 ， 目 标 节 点 在 跳跃 表 中 的 排 位 为 
2 


level 
5 
length 
3 





图 5-5” 男 一 个 计算 节点 排 位 的 例子 
4. 后 退 指针 








节点 的 后 退 指 针 《〈backward 属 性 ) 用 于 从 表 尾 向 表 头 方向 访问 节 
点 : 跟 可 以 一 次 跳 过 多 个 节点 的 前 进 指针 不 同 ， 因 为 每 个 节点 只 有 一 个 
后 退 指针 ， 上 所 以 每 次 只 能 后 退 至 前 一 个 节点 。 


图 5-6 用 虚线 展示 了 如 果 从 表 尾 癌 表 类 过 历 跳跃 表 中 的 所 有 节 扣 : 
程序 首先 通过 跳跃 表 的 tail 指 针 访 问 表 尾 节 点 ， 然 后 通过 后 退 指针 访问 
倒数 第 二 个 节点 ， 之 后 再 沿 着 后 退 指针 访问 倒数 第 三 个 节点 ， 再 之 后 遇 
到 指向 NULL 的 后 退 指针 ， 于 是 访问 结束 。 


5. 分 值 和 成 员 


节点 的 分 值 (score 属 性 ) 是 一 个 double 类 型 的 浮 点 数 ， 跳 跃 表 中 的 
所 有 节点 都 按 分 值 从 小 到 大 来 排序 。 


节点 的 成 员 对 象 〈obj 属 性 ) 是 一 个 指针 ， 它 指向 一 个 字符 串 对 
象 ， 而 字符 捉 对 象 则 保存 着 一 个 SDS 值 。 


在 同一 个 跳跃 表 中 ， 各 个 节点 保存 的 成 员 对 象 必须 是 唯一 的 ， 但 是 
多 个 市 点 保 存 的 分 值 却 可 以 是 相同 的 : 分 值 相同 的 节点 将 按照 成 员 对 象 

















在 字典 序 中 的 大 小 来 进行 排序 ， 成 员 对 象 较 小 的 节点 会 排 在 前 面 〈 靠 近 
nn 
本 六 sg 


NULL 


NULL 


NULL 


NULL 








NULL 











图 5-6 ”从 表 尾 同 表 头 方 癌 过 爵 跳跃 表 
举 个 例子 ， 在 图 5-7 所 示 的 跳跃 表 中 ， 三 个 跳跃 表 节 点 都 保存 了 相 
同 的 分 值 10086.0， 但 保存 成 员 对 象 01 的 节点 却 排 在 保存 成 员 对 象 02 和 
03 的 节点 之 前 ， 而 保存 成 员 对 象 o2 的 贡 点 又 排 在 保存 成 员 对 象 o3 的 和 点 
之 前 ， 由 此 可 见 ，o1、o02、o03 三 个 成 员 对 象 在 字典 中 的 排序 为 


01<=02<=03。 


NULL 


NULL 


NULL 


NULL 


NULL 





图 5-7 三 个 高 有 相同 分 值 的 跳跃 表 节 点 
5.1.2 ”跳跃 表 
仪 靠 多 个 跳跃 表 节 点 就 可 以 组 成 一 个 跳跃 表 ， 如 图 5-8 所 示 。 
但 通过 使 用 一 个 zskiplist 结 构 来 持 有 这 些 世 点， 程序 可 以 更 方便 地 





对 整个 跳跃 表 进 行 处 理 ， 比 如 快速 访问 跳跃 表 的 表 头 节点 和 表 尾 节点 ， 
或 者 快速 地 获取 跳跃 表 节 点 的 数量 〈 也 即 是 跳跃 表 的 长 度 ) 等 信息 ， 如 
图 5-9 所 示 。 


zskiplist 结 构 的 定义 如 下 : 


typedef struct zskiplist { 
表 头 节点 和 表 尾 节点 


structz SkiplistNode *header, *tail; 


涝 


中 节点 的 数量 

unsigned long length; 
a 

表 中 层 数 最 大 的 节点 的 层 数 
int level; 

+ :zakiplist; 

















NULL 


NULDL 


NULL 


NULDL 


NULL 


NULL 


NULL 


NULL 


NULL 


NULL 





图 5-9” 带 有 zskiplist 结 构 的 跳跃 表 


header 和 tail 指 针 分 别 指向 跳跃 表 的 表 头 和 表 尾 节点 ， 通 过 这 两 个 指 
针 ， 程 序 定位 表 头 节点 和 表 尾 节点 的 复杂 度 为 0 (1) 。 


通过 使 用 length 属 性 来 记录 节点 的 数量 ， 程 序 可 以 在 O (1) 复杂 上 度 
内 返回 跳跃 表 的 长 度 。 


level 属 性 则 用 于 在 O (1) 复杂 上 度 内 获取 跳跃 表 中 层 高 最 大 的 那个 布 
点 的 层 数量 ， 注 意 表 头 节点 的 层 高 并 不 计算 在 内 。 

















5.2 ”跳跃 表 API 
表 5-1 列 出 了 跳跃 表 的 所 有 操作 API。 


范 数 


23lCreate 


zslFree 


zslInsert 


zslDelete 


z3lGetRank 


z5lGetElementByRank 


zs5lIsInRange 


2z5lFirstInRange 





表 5-1 跳跃 表 API 

创建 一 个 新 的 跳跃 表 0U) 

释放 给 定 跳 跃 表 ， 以 及 表 中 包含 的 
所 有 节点 

将 包含 给 定 成 员 和 分 值 的 新 书 点 添 | “平均 O(logM， 最 坏 O(W，N 为 跳跃 
加 到 跳跃 表 中 表 长 度 

删除 跳跃 表 中 包含 给 定 成 员 和 分 值 | ”平均 O(logN)， 最 十 O(N), 为 跳跃 
的 节操 表 长 度 

返回 包含 给 定 成 员 和 分 值 的 节点 在 | “平均 O(logN)， 最 十 O(N), 为 跳跃 
跳跃 表 中 的 排 位 表 长 度 

平均 O(logN)， 最 坏 O(N), WW 为 跳跃 
表 长 度 


O(N), 让 为 吏 中 表 的 长 度 


返回 中 中 表 在 给 定 排 位 上 的 节点 


给 定 一 个 分 值 范围 (range )， 比 如 0 

到 15，20 到 28， 诸 如 此 类 ， 如 果 跳 | 通过 跳跃 表 的 表 头 节点 和 表 尾 节点 ， 
跃 表 中 有 至 少 一 个 书 点 的 分 值 在 这 个 | 这 个 检测 可 以 用 O(1) 复杂 度 完成 
范围 之 内 ， 那 么 返回 1， 否则 返回 0 


给 定 一 个 分 值 范围， 返回 跳 中 表 中 | 平均 O(logN)， 最 雨 OQD。 为 跳跃 
第 一 个 香 合 这 个 范围 的 节 表 长 度 





给 是 图 ， 返 回 跳跃 表 中 | 平均 Oogm)， 最 坏 CC。 为 跳跃 
最 后 一 个 符合 这 个 范围 的 节点 表 长 度 


给 定 一 个 分 值 范围 删除 跳 跃 表 中 
所 有 在 这 个 范围 之 内 的 节点 


zslLastInRange 


O(N)， 为 被 删除 节点 数量 


zslDeleteRangeByscore 


给 定 一 个 排 人 范畴 ， 删 除 跑 吧 表 中 
入 有 在 这 个 范围 之 内 的 节操 


OO，N 为 被 删除 节点 数量 


zslDeleteRangeByRank 


5.3 重 氮 回顾 

跳跃 表 是 有 序 集合 的 底层 实现 之 一 。 

.Redis 的 跳跃 表 实 现 由 zskiplist 和 zskiplistNode 两 个 结构 组 成 ， 其 中 
zskiplist 用 于 保存 跳跃 表 信 息 《〈 比 如 表 头 节点 、 表 尾 节 点 、 长 度 ) ， 而 
zskiplistNode 则 用 于 表示 跳跃 表 节 点 。 

每 个 跳跃 表 节 点 的 层 高 都 是 1 至 32 之 间 的 随机 数 。 


-在 同一 个 跳跃 表 中 ， 多 个 节点 可 以 包含 相同 的 分 值 ， 但 每 个 市 皮 
的 成 员 对 象 必 须 是 唯一 的 。 


-跳跃 表 中 的 节点 按照 分 值 大 小 进行 排序 ， 当 分 值 相同 时 ， 节 点 按 
照 成 员 对 象 的 大 小 进行 排序 。 





第 6 半 ”整数 集合 


整数 集合 〈intset) 是 集合 键 的确 层 实现 之 一 ， 当 一 个 集合 只 包含 整 
数值 元 素 ， 并 且 这 个 集合 的 元 系数 量 不 多 时 ，Redis 束 会 使 用 整数 集合 
作为 集合 键 的 底层 实现 。 


举 个 例子 ， 如 果 我 们 创建 一 个 只 包含 五 个 元 素 的 集合 键 ， 并 且 集 合 
中 的 所 有 元 系 都 是 于 数值 ， 那 各 这 个 集合 名 的 底层 实现 硕 会 起 整数 案 


口 

















redis> SADD numbers 1 3 579 
(integer) 5 

redis> OBJECT ENCODING numbers 
"ineet” 





在 这 一 章 ， 我 们 将 对 整数 集合 及 其 相关 操作 的 实现 原理 进行 介绍 。 


6.1 整数 集合 的 实现 

整数 集合 〈intset) 是 Redis 用 于 保存 整数 值 的 集合 抽象 数据 结构 ， 
它 可 以 保存 类 型 为 int16 t、int32 tt 或 者 int64 t 的 整数 值 ， 并 且 保 证 集合 
中 不 会 出 现 重复 元 素 。 


每 个 intset.h/intset 结 构 表 示 一 个 整数 集合 : 





typedef struct intset { 
di 


编码 方式 
uint32_t encoding; 
a 
集合 包含 的 元 素数 量 
uint32_t length; 
// 
保存 元 素 的 数组 
int8_t contents[]; 
} intset ， 








contents 数 组 是 整数 集合 的 底层 实现 : 整数 集合 的 每 个 元 素 都 是 
contents 数 组 的 一 个 数组 项 〈item) ， 各 个 项 在 数组 中 按 值 的 大 小 从 小 到 
大 有 序 地 排列 ， 并 且 数 组 中 不 包含 任何 重复 项 。 


length 属 性 记录 了 整数 集合 包含 的 元 素数 量 ， 也 即 是 contents 数 组 的 
长 度 。 


虽然 intset 结 构 将 contents 属 性 声明 为 int8_t 类 型 的 数组 ， 但 实际 上 
contents 数 组 并 不 保存 任何 int8_t 类 型 的 值 ，contents 数 组 的 真正 类 型 取决 
于 encoding 属 性 的 值 : 


.如 果 encoding 属 性 的 值 为 INTSET_ENC_INT16， 那 么 contents 就 是 
一 个 int16_t 类 型 的 数组 ， 数 组 里 的 每 个 项 都 是 一 个 int16_t 类 型 的 整数 值 
(最 小 值 为 -32768， 最 大 值 为 32767) 。 


“如果 encoding 属 性 的 值 为 INTSET_ENC_INT32， 那 么 contents 就 是 
一 个 int32_t 类 型 的 数组 ， 数 组 里 的 每 个 项 都 是 一 个 int32_t 类 型 的 整数 值 
(最 小 值 为 -2147483648， 最 大 值 为 2147483647) 。 


.如 果 encoding 属 性 的 值 为 INTSET_ENC_INT64， 那 么 contents 就 是 
一 个 int64_t 关 型 的 数组 ， 数 组 里 的 每 个 项 都 是 一 个 int64_t 关 型 的 整数 值 
(最 小 值 为 -9223372036854775808， 最 大 值 为 


9223372036854775807) 。 
图 6-1 展 示 了 一 个 整数 集合 示例 : 


encoding 
INTSET ENC INT]16 


length 
3 


图 6-1 一 个 包含 五 个 int16_t 类 型 整数 值 的 整数 集合 


-encoding 属 性 的 值 为 INTSET_ENC_INT16， 表 示 整 数 集合 的 底层 实 
现 为 int16_t 类 型 的 数组 ， 而 集合 保存 的 都 是 int16_t 类 型 的 整数 值 。 


“length 属性 的 值 为 5， 表 示 整 数 集合 包含 五 个 元 素 。 
contents 数 组 按 从 小 到 大 的 顺序 保存 着 集合 中 的 五 个 元 系 。 


:因为 每 个 集合 元 素 都 是 int16_t 类 型 的 整数 值 ， 所 以 contents 数 组 的 
大 小 等 于 sizeof (int16 t) *5=16*5=80 位 。 


图 6-2 展 示 了 男 一 个 整数 集合 示例 : 


encoding 
INTSET ENC INT64 


length 


二 


图 6-2 一 个 包含 四 个 int16_t 类 型 整数 值 的 整数 集合 






























:encoding 属性 的 值 为 INTSET_ENC_INT64， 表 示 整 数 集合 的 底层 实 
现 为 int64_t 类 型 的 数组 ， 而 数组 中 保存 的 都 是 int64_t 类 型 的 整数 值 。 


length 属 性 的 值 为 4， 表 示 整 数 集合 包含 四 个 元 素 。 
contents 数 组 按 从 小 到 大 的 顺序 保存 着 集合 中 的 四 个 元 系 。 


:因为 每 个 集合 元 素 都 是 int64_t 类 型 的 整数 值 ， 所 以 contents 数 组 的 
大 小 为 sizeof (int64 t) *4=64*4=256 位 。 


虽然 contents 数 组 保存 的 四 个 整数 值 中 ， 只 有 -2675256175807981027 
是 真正 需要 用 int64_t 类 型 来 保存 的 ， 而 其 他 的 1、3、5 三 个 值 都 可 以 用 
int16_{t 类 型 来 保存 ， 不 过 根据 整数 集合 的 升级 规则 ， 当 癌 一 个 底层 为 
int16 _t 数 组 的 整数 集合 添加 一 个 int64_t 类 型 的 整数 值 时 ， 整 数 集合 已 有 
的 所 有 元 素 都 会 被 转换 成 int64_t 类 型 ， 所 以 contents 数 组 保存 的 四 个 整数 
值 都 是 int64_t 类 型 的 ， 不 仅仅 是 -2675256175807981027 。 


接 下 来 的 一 市 将 对 整数 集合 的 升级 操作 进行 详细 介绍 。 








6.2 升级 

每 当 我 们 要 将 一 个 新 元 素 添 加 到 整数 集合 里 面 ， 并 且 新 元 素 的 类 型 
比 整数 集合 现 有 所 有 元 素 的 类 型 都 要 长 时 ， 整 数 集合 需要 先进 行 升级 
Cupgrade) ， 然 后 才能 将 新 元 素 添加 到 整数 集合 里 面 。 

升级 整数 集合 并 琴 加 新 元 素 共 分 为 三 步 进行 : 


1) 根据 新 元 素 的 类 型 ， 扩 展 整 数 集合 底层 数组 的 空间 大 小 ， 并 为 
新 元 素 分 配 空间 。 


2) 将 确 层 数组 现 有 的 所 有 元 素 都 转换 成 与 新 元 素 相同 的 类 型 ， 并 
将 类 型 转换 后 的 元 素 放置 到 正确 的 位 上 ， 而 且 在 放置 元 素 的 过 程 中 ， 需 
要 继续 维持 底层 数组 的 有 序 性 质 不 变 。 

3) 将 新 元 素 添 加 到 底层 数组 里 面 。 


举 个 例子 ， 假 设 现在 有 一 个 INTSET_ENC_INT16 编 码 的 整数 集合 ， 
集合 中 包含 三 个 int16_t 类 型 的 元 素 ， 如 图 6-3 所 示 。 


encoding 
INTSET ENC INT16 


length 


contents 


图 6-3 一 个 包含 三 个 int16_t 类 型 的 元 素 的 整数 集合 


因为 每 个 元 素 都 占用 16 位 空间 ， 所 以 整数 集合 底层 数组 的 大 小 为 
3*16=48 位 ， 图 6-4 展 示 了 整数 集合 的 三 个 元 素 在 这 48 位 里 的 位 置 。 



















0 至 15 位 16 至 31 位 32 至 47 位 





图 6-4 ”contents 数 组 的 各 个 元 素 ， 以 及 它们 所 在 的 位 


现在 ， 假 设 我 们 要 将 类 型 为 int32_t 的 整数 值 65535 添 加 到 整数 集合 
里 面 ， 因 为 65535 的 类 型 int32_t 比 整数 集合 当前 所 有 元 素 的 类 型 都 要 
2 所 以 在 将 65535 添 加 到 整数 集合 之 前 ， 程 序 需 要 先 对 整数 集合 进行 
级 。 


升级 首先 要 做 的 是 ， 根 据 新 类 型 的 长 度 ， 以 及 集合 元 素 的 数量 《〈 包 
括 要 添加 的 新 元 素 在 内 ) ， 对 底层 数组 进行 空间 重 分 配 。 


整数 集合 目前 有 三 个 元 素 ， 再 加 上 新 元 素 65535， 整 数 集合 需要 分 
配 四 个 元 杂 的 衬 x 间 ， 因 为 每 个 int32 _t 整 数值 需要 占用 32 位 空 所 以 在 
空间 重 分 配 之 后 ， 底 层 数 组 的 大 小 将 是 32*4=128 位 ， 如 图 6-5 所 示 。 虽 
然 程 序 对 底层 数组 进行 了 空间 重 分 配 ， 但 数组 原 有 的 三 个 元 素 1、2、3 
仍然 是 int16 t 类 型 ， 这 些 元 素 还 保存 在 数组 的 前 48 位 里 面 ， 所 以 程序 接 
下 来 要 做 的 融 是 将 这 三 个 元 素 转换 成 int32_t 类 型 ， _ 并 将 转换 后 的 元 素 放 
置 到 正确 的 位 上 面 ， 而 且 在 放置 元 素 的 过 程 中 ， 需 要 维持 底层 数组 的 有 
序 性 质 不 变 。 





0 至 15 位 16 至 31 位 | 32 至 47 位 48 至 127 位 





图 6-5 “进行 空间 重 分 配 之 后 的 数组 
首先 ， 因 为 元 素 3 在 1、2、3、65535 四 个 元 素 中 排名 第 三 ， 所 以 它 


将 被 移动 到 contents 数 组 的 索引 2 位 置 上 ， 也 即 是 数组 64 位 至 95 位 的 空间 
内 ， 如 图 6-6 所 示 。 


EE EE 
Tr 








(新 分 配 空间 


从 int16 七 类 型 转换 为 int32 七 类 型 


图 6-6 ”对 元 系 3 进 行 类 型 转换 ， 并 保存 在 适当 的 位 上 


接着 ， 因 为 元 素 2 在 1、2、3、65535 四 个 元 素 中 排名 第 二 ， 所 以 它 
将 被 移动 到 contents 数 组 的 索引 1 位 置 上 ， 也 即 是 数组 的 32 位 至 63 位 的 空 
间 内 ， 如 图 6-7 所 示 。 








7 
Egg 
从 int16 七 类 型 转换 为 int32 七 类 型 
图 6-7 ”对 元 素 2 进行 类 型 转换 ， 并 保存 在 适当 的 位 上 





之 后 ， 因 为 元 素 1 在 1、2、3、65535 四 个 元 素 中 排名 第 一 ， 所 以 它 
将 被 移动 到 contents 数 组 的 索引 0 位 置 上 ， 即 数组 的 0 位 至 31 位 的 空间 
内 ， 如 图 6-8 所 示 。 








EE 
RK > 
从 int16_t 类 型 转换 为 int32 七 类 型 
图 6-8 ”对 元 素 1 进行 类 型 转换 ， 并 保存 在 适当 的 位 上 


然后 ， 因 为 元 素 65535 在 1、2、3、65535 四 个 元 素 中 排名 第 四 ， 所 
以 它 将 被 添加 到 contents 数 组 的 索引 3 位 置 上 上 ， 也 即 是 数组 的 96 位 至 127 
位 的 空间 内 ， 如 图 6-9 所 示 。 


0 至 31 位 32 至 63 位 | 64 位 至 95 位 | 96 位 至 127 位 








添加 新 元 素 


图 6-9 ”添加 65535 到 数组 
最 后 ， 程 序 将 整数 集合 encoding 属 性 的 值 从 INTSET_ENC_INT16 改 


为 INTSET_ENC_INT32， 并 将 length 属 性 的 值 从 3 改 为 4， 设 置 完成 之 后 
的 整数 集合 如 图 6-10 所 示 。 


encoding 
INTSET ENC INT32 


ng 


图 6-10 ”完成 添加 操作 之 后 的 整数 集合 


因为 每 次 问 整 数 集合 添加 新 元 素 都 可 能 会 引起 升级 ， 而 每 次 升级 都 
要 对 的 层 数 组 中 己 有 的 所 有 元 素 进 行 类 型 转换 ， 所 以 癌 整 数 集合 添加 
所 元 亲 的 只 间 复杂 度 20 CM) 


其 他 类 型 的 升级 操作 ， 比 如 从 INTSET_ENC_INT16 编 码 升级 为 
INTSET_ENC_INT64 编 码 ， 或 者 从 INTSET_ENC_INT32 编 码 升 级 为 
INTSET_ENC_INT64 编 码 ， 升 级 的 过 程 都 和 上 面 展 示 的 升级 过 程 类 似 。 










升级 之 后 新 元 素 的 摆 放 位 置 





因为 引发 升级 的 新 元 系 的 长 度 总 是 比 整数 集合 现 有 所 有 元 素 的 
长 度 都 大 ， 所 以 这 个 新 元 素 的 值 要 么 就 大 于 所 有 现 有 元 素 ， 要 么 吏 
小 于 所 有 现 有 元 素 : 


-在 新 元 素 小 于 所 有 现 有 元 素 的 情况 下 ， 新 元 素 会 被 放置 在 扩 
层 数 组 的 最 开 涉 (索引 0) ; 


-在 新 元 素 大 于 所 有 现 有 元 素 的 情况 下 ， 新 元 素 会 被 放置 在 扩 
层 数 组 的 最 末尾 (索引 length-1)。 























6.3 ”升级 的 好 处 


整数 集合 的 升级 集 略 有 两 个 好 处 ， 一 个 是 提升 整数 集合 的 灵活 性 ， 
男 一 个 是 尽 可 能 地 市 约 内 存 。 


6.3.1 提升 灵活 性 


因为 C 语 言 是 静态 类 型 语言 ， 为 了 避免 类 型 错误 ， 我 们 通常 不 会 将 
两 种 不 同类 型 的 值 放 在 同一 个 数据 结构 里 面 。 


例如 ， 我 们 一 般 只 使 用 int16 t 类 型 的 数组 来 保存 int16 t 类 型 的 值 ， 
只 使 用 int32_t 类 型 的 数组 来 保存 int32_t 类 型 的 值 ， 诸 如 此 类 。 


但 是 ， 因 为 整数 集合 可 以 通过 上 自动 升级 底层 数组 来 适应 新 元 素 ， 所 
以 我 们 可 以 随意 地 将 int16_t、int32_t 或 者 int64_t 类 型 的 整数 添加 到 集合 
中 ， 而 不 必 担 心 出 现 类 型 错误 ， 这 种 做 法 非常 灵活 。 


6.3.2: “站 多 内 存 


当然 ， 要 让 一 个 数组 可 以 同时 保存 int16_t、int32_t、int64_t 三 种 类 
型 的 值 ， 最 简单 的 做 法 就 是 直接 使 用 int64_t 类 型 的 数组 作为 整数 集合 的 
底层 实现 。 不 过 这 样 一 来 ， 即 使 添加 到 整数 集合 里 面 的 都 是 int16_t 类 型 
或 者 int32_t 类 型 的 值 ， 数 组 都 需要 使 用 int64_t 类 型 的 空间 去 保存 它们 ， 
从 而 出 现 浪 费 内 存 的 情况 。 


而 整数 集合 现在 的 做 法 既 可 以 让 集合 能 同时 保存 三 种 不 同类 型 的 
ER 
年 。 


例如 ， 如 果 我 们 一 直 只 向 整数 集合 添加 int16_t 类 型 的 值 ， 那 么 整数 
集合 的 底层 实现 就 会 一 直 是 int16_t 类 型 的 数组 ， 只 有 在 我 们 要 将 int32_t 
类 型 或 者 int64 t 类 型 的 值 添加 到 集合 时 ， 程 序 才 会 对 数组 进行 升级 。 


6.4 ”降级 


整数 集合 不 支持 降级 操作 ， 一 旦 对 数组 进行 了 升级 ， 编 码 就 会 一 直 
保持 升级 后 的 状态 。 


举 个 例子 ， 对 于 图 6-11 所 示 的 整数 集合 来 说 ， 即 使 我 们 将 集合 里 唯 
一 一 个 真正 需要 使 用 int64_t 类 型 来 保存 的 元 素 4294967295 删 除了 ， 整 数 
集合 的 编码 仍然 会 维持 INTSET_ENC_INT64， 底 层 数组 也 仍然 会 是 
int64_t 类 型 的 ， 如 图 6-12 所 示 。 











intset 






encoding 
INTSET ENC INT64 







length 






contents 





图 6-11 ”数组 编码 为 INTSET_ENC_INT64 的 整数 集合 










intset 


encoding 
INTSET ENC INT64 


length 


contents 


图 6-12 ”删除 4 294 967 295 的 整数 集合 





6.5 整数 集合 API 
表 6-1 列 出 了 整数 集合 的 操作 API。 
表 6-1 整数 集合 API 
台数 时 间 复 杂 度 
intsetNew 创建 一 个 新 的 压缩 列表 0(l) 
intsetAdd 将 给 定 元 素 添加 到 整数 集合 里 面 OU 
intsetRemove 从 整数 集合 中 移 除 给 定 元 素 O(N) 
因为 底层 数组 有 友 ， 查 找 可 以 通过 二 分 查找 
; 人 厅 日 不 人 
intsetFind 检查 给 定 值 是 否 存在 于 集合 法 来 进行 所 以 复杂 度 为 O(logN) 


intsetRandom 从 整数 集合 中 随机 返回 一 个 元 素 0U) 


intsetGet 取出 底层 数组 在 给 定 索 引 上 的 元 素 0 


( 
intsetLen 返回 整数 集合 包含 的 元 素 个 数 0( 
( 


intsetBlobLen 返回 整数 集合 占用 的 内 存 字 书 数 0 














6.6 重点 回顾 

.整数 集合 是 集合 键 的 底层 实现 之 一 。 

.整数 集合 的 底层 实现 为 数组 ， 这 个 数组 以 有 序 、 无 重复 的 方式 保 
存 集合 元素， 在 有 需要 时 ， 程 序 会 根据 新 添加 元 素 的 类 型 ， 改 变 这 个 
组 的 类 型 。 


lh 0 了 操作 上 的 灵活 性 ， 并 且 尽 可 能 地 节约 
和 。 








整数 集合 只 支持 升级 操作 ， 不 文 持 降 级 操作 。 


第 7 章 ”压缩 列表 


压缩 列表 〈ziplist) 是 列表 键 和 哈 硕 键 的 抵 层 实现 之 一 。 当 一 个 列 
表 键 只 包含 少量 列表 项 ， 并 且 每 个 列表 项 要 么 束 是 小 整数 值 ， 要 么 束 是 
长 度 比 较 短 的 字符 串 ， 那 么 Redis 就 会 使 用 压缩 列表 来 做 列表 键 的 底层 
实现 。 


例如 ， 执 行 以 下 命令 将 创建 一 个 压缩 列表 实现 的 列表 键 : 





redis> RPUSH lst 1 3 5 10086 "hello" "world" 
(integer 

redis> OBJECT ENCODING lst 
"ziplist" 





列表 键 里 面包 含 的 都 是 1、3、5、10086 这 样 的 小 整数 值 ， 以 
及 "hello"、"world" 这 样 的 短 字 符 串 。 

另外 ， 当 一 个 哈 希 键 只 包含 少量 键 值 对 ， 比 且 每 个 键 值 对 的 键 和 值 
要 么 就 是 小 整数 值 ， 要 么 就 是 长 度 比较 短 的 字符 串 ， 那 么 Redis 就 会 使 
用 压缩 列表 来 做 哈 希 键 的 底层 实现 。 


举 个 例子 ， 执 行 以 下 命令 将 创建 一 个 压缩 列表 实现 的 哈 希 键 : 








redis> HMSET profile "name" "Jack" "age" 28 "job" "Programmer" 
OK 

redis> OBJECT ENCODING profile 

"dpldet" 





哈 希 键 里 面包 含 的 所 有 和 键 和 值 都 是 小 整数 值 或 者 短 字 符 串 。 本 章 将 
对 压缩 列表 的 定义 以 及 相关 操作 进行 详细 的 介绍 。 





7.1 压缩 列表 的 构成 


压缩 列表 是 Redis 为 了 节约 内 存 而 开发 的 ， 是 由 一 系列 特殊 编码 的 
连续 内 存 块 组 成 的 顺序 型 Be 数据 结构 。 一 个 压缩 列表 可 以 包 
含 任意 多 个 节点 〈entry) ， 每 个 节点 可 以 保存 一 个 字 节 数组 或 者 一 个 整 
数值 。 


图 7-1 展 示 了 压缩 列表 的 各 个 组 成 部 分 ， 表 7-1 则 记录 了 各 个 组 成 部 
分 的 类 型 、 长 度 以 及 用 途 。 


re [oi om | we | we | we | ere 


图 7-1 压缩 列表 的 各 个 组 成 部 分 
表 7-1 压缩 列表 各 个 组 成 部 分 的 详细 说 明 


可 到 


ote | vanes 1 | 4h | a 
: 或 者 计策 zlend 的 位 置 时 全 5 


zltail | uint32 t 4 字 书 记录 必 缩 列 发 表 尾 节 中 离 夺 叶 和 起 好 地 址 有 乡 少 字 节 ， 通过 这 个 
| 他 最 入 天 


记录 了 压缩 列表 包含 的 节点 数量 ， 当 这 个 属性 的 值 小 于 UINT16 MBX 
zllen | uint16 t 2 字 节 | ( 65535 ) 时 ， 这 个 属性 的 值 就 是 压缩 列表 包含 节点 的 数量 ， 当 这 个 值 等 于 
UINT16 MAX 时 ， 节点 的 真实 数量 需要 遍历 整个 压缩 列表 才能 计算 得 出 


ent 列表 亿 全 的 各 人 节点 ， 忆 上 的 长 由 节 点 保 丰 的 内 容 汪 
lend i 和信 0xF ( 十进制 55 用 于 标 沁 夺 列表 的 未 


图 7-2 展 示 了 一 个 压缩 列表 示例 : 


“列表 zlbytes 属 性 的 值 为 0x50《〈 十 进 制 80) ， 表 示 压 缩 列 表 的 总 长 为 
80 字 。 


.列表 zltail 属 性 的 值 为 0x3c《〈 十 进 制 60) ， 这 表示 如 果 我 们 有 一 个 
指向 压缩 列表 起 始 地 址 的 指针 p， 那 么 只 ! 要 用 指 针 p 加 上 偏 移 量 60， 就 可 
以 计算 出 表 尾 节点 entry3 的 地 址 。 


列表 zllen 属 性 的 值 为 0x3 (十进制 3) ， 表 示 压 缩 列表 包含 三 个 节 








zlbytes zltall zllen zlend 
EE IC CIE 


p+60 


图 7-2 ”包含 三 个 节点 的 压缩 列表 





图 7-3 展 示 了 力 一 个 压缩 列表 示例 : 


zlbytes | zltail | zllen 2lend 
tryl try2 | entry3 tryd y 
Dx? Dxb3 entryl | entry2 | entry entry Dapp 





p p+179 
图 7-3 ”包含 五 个 节点 的 压缩 列表 


.列表 zlbytes 属 性 的 值 为 0xd2 〈 十 进 制 210) ， 表 示 压 缩 列表 的 总 长 
为 210 字 节 。 


:列表 zltail 属 性 的 值 为 0xb3 十进制 179， ， 这 表示 如 果 我 们 有 一 个 
指向 压缩 列表 起 始 地 址 的 指针 p， 那 么 只 (要 用 指针 p 加 上 偏 移 量 179， 就 
可 以 计算 出 表 尾 节点 entry5 的 地 址 。 


列表 zllen 属 性 的 值 为 0x5《〈 十 进 制 5) ， 表 示 压 缩 列 表 包 含 五 个 节 


7.2 ”压缩 列表 节点 的 构成 


每 个 压缩 列表 节点 可 以 保存 一 个 字 节 数 组 或 者 一 个 整数 值 ， 其 中 ， 
字 节 数组 可 以 是 以 下 三 种 长 度 的 其 中 一 种 ; 


-长 度 小 于 等 于 63 (2 1) 字 节 的 字 节 数 组 ; 
:长度 小 于 等 于 16383 (2 -1) 字 节 的 字 节 数 组 ; 
:长度 小 于 等 于 4294967295 (2 *1) 字 节 的 字 节 数组 ; 
而 整数 值 则 可 以 是 以 下 六 种 长 度 的 其 中 一 种 : 

-4 位 长 ， 介 于 0 至 12 之 间 的 无 符号 整数 ; 

1 字 节 长 的 有 符号 整数 ，; 

3 字 节 长 的 有 符号 整数 ，; 

-int16_t 类 型 整数 ; 

int32_t 类 型 整数 ; 


.int64 t 类 型 整数 。 








每 个 压缩 列表 节点 都 由 previous_entry_length、encoding、content 三 
个 部 分 组 成 ， 如 图 7-4 所 示 。 


图 7-4 压缩 列表 节点 的 各 个 组 成 部 分 
接 下 来 的 内 容 将 分 别 介绍 这 三 个 组 成 部 分 。 
7.2.1 previous_entry_length 


节点 的 previous_entry_lengh 属 性 以 字 节 为 单位 ， 记 录 了 压缩 列表 中 
前 一 个 节点 的 长 度 。previous_entry_length 属 性 的 长 度 可 以 是 1 字 节 或 者 5 


人 


字 节 : 


:如 果 前 一 节点 的 长 度 小 于 254 字 节 ， 那 么 previous_entry_length 属 性 
的 长 度 为 1 字 节 : 前 一 节点 的 长 度 就 保存 在 这 一 个 字 节 里 面 。 


:如 果 前 一 节点 的 长 度 大 于 等 于 254 字 节 ， 那 么 previous_entry_length 
属性 的 长 度 为 5 字 节 : 其 中 属性 的 第 一 字 节 会 被 设置 为 0xFE 十 进 制 值 
254) ， 而 之 后 的 四 个 字 节 则 用 于 保存 前 一 节点 的 长 度 。 


图 7-5 展 示 了 一 个 包含 一 字 节 长 previous_entry_length 属 性 的 压缩 列 

















表 市 态 ， 属 性 的 值 为 0x05， 表 示 前 一 市 点 的 长 度 为 5 字 市 。 


Ox05 和 和 





图 7-5 ”当前 市 反 的 前 一 节 扣 的 长 度 为 5 字 节 


图 7-6 展 示 了 一 个 包含 五 字 节 长 previous_entry_length 属 性 的 压缩 节 
点 ， 属 性 的 值 为 0xXFE00002766， 其 中 值 的 最 蜗 位 字 节 0xFE 表 示 这 是 一 
个 五 字 节 长 的 previous_entry_length 属 性 ， 而 之 后 的 四 字 节 











0x00002766 十进制 值 10086) 才 是 前 一 节点 的 实际 长 度 。 


previous entry length | encoding content 
OxFEO00002766 i i 





图 7-6 ”当前 节 扣 的 前 一 节点 的 长 度 为 10086 字 市 


为 节点 的 previous_entry_length 属 性 记录 了 前 一 个 节点 的 长 度 ， 所 
以 程序 可 以 通过 指针 运算 ， 根 据 当前 节点 的 起 始 地 址 来 计算 出 前 一 个 节 
点 的 起 始 地 址 。 


举 个 例子 ， 如 果 我 们 有 一 个 指 疝 当前 节点 起 始 地 址 的 指针 c， 那 么 
我 们 只 要 用 指针 c 减 去 当前 节点 previous_entry_length 属 性 的 值 ， 就 可 以 
得 出 一 个 指向 前 一 个 节点 起 始 地 址 的 指针 p， 如 图 7-7 所 示 。 





本 previous entry | current entry We 


p= C= current entry.previous entry length 


图 7-7 通过 指针 运算 计算 出 前 一 个 节点 的 地 址 


压缩 列表 的 从 表 尾 回 表 头 过 历 操作 就 是 使 用 这 一 原理 实现 的 ， 只 要 
我 们 拥有 了 一 个 指向 某 个 节点 起 始 地 址 的 指针 ， 那 么 通过 这 个 指针 以 及 
这 个 节点 的 previous_entry_length 必 性， 程序 就 可 以 一 直 回 前 一 个 节点 回 
湖 ， 最 终 到 达 压 缩 列 表 的 表 头 节点 。 


图 7-8 展 示 了 一 个 从 表 尾 节点 回 表 类 节操 进行 吉 历 的 完整 过 程 : 

首先 ， 我 们 拥有 指 同 压 纵 列 表 表 尾 节 点 entry4 起 始 地 址 的 指针 
pl1〈 指 辣 表 尾 节 点 的 指针 可 以 通过 指向 压缩 列表 起 始 地 址 的 指针 加 上 
zltail 属 性 的 值得 出 〉; 


:通过 用 p1 减 去 entry4 节 点 previous_entry_length 属 性 的 值 ， 我 们 得 到 
一 个 指 癌 entry4 前 一 节点 entry3 起 始 地 址 的 指针 p2; 


:通过 用 p2 减 去 entry3 节 点 previous_entry_length 属 性 的 值 ， 我 们 得 到 
一 个 指 癌 entry3 前 一 节点 entry2 起 始 地 址 的 指针 p3; 


.通过 用 p3 减 去 entry2 节 点 previous_entry_length 属 性 的 值 ， 我 们 得 到 
一 个 指 同 entry2 前 一 节点 entry1 起 始 地 址 的 指针 p4，entry1 为 压缩 列表 的 


最 终 ， 我 们 从 表 尾 节点 回 表 类 节操 过 历 了 整个 列表 。 




















pl 


p2 = pl - entry4.previous entry length 


p3 = p2 - entry3.previous entry length 


p4 = p3 - entry2.previous entry length 
图 7-8 一 个 从 表 尾 向 表 尖 裔 历 的 例子 


7.2.2 encoding 


的 encoding 属 性 记录 了 节点 的 content 属 性 所 保存 数据 的 类 型 以 
及 长 度 : 


-一 字 节 、 两 字 贡 或 者 五 字 节 长 ， 值 的 最 高 位 为 00、01 或 者 10 的 是 
字 市 数组 编码 : 这 种 编码 表示 节点 的 content 属 性 保存 着 字 市 数组 ， 数 组 
的 长 度 由 编码 除去 最 高 两 位 之 后 的 其 他 位 记录 ; 


一 字 贡 长 ， 值 的 最 高 位 以 11 开 头 的 是 整数 编码 : 这 种 编码 表示 市 
点 的 content 属 性 保存 着 整数 值 ， 整 数值 的 类 型 和 长 度 由 编码 除去 最 高 两 
位 之 后 的 其 他 位 记录 ; 


表 7-2 记 录 了 所 有 可 用 的 字 节 数组 编码 ， 而 表 7-3 则 记录 了 所 有 可 用 
的 整数 编码 。 表 格 中 的 下 划 线 “” 表 示 留 空 ， 而 b、x 等 变量 则 代表 实际 
的 二 进 制 数据 ， 为 了 方便 阅读 ， 多 个 字 贡 之 间 用 空格 隔 开 。 





























表 7-2” 字 节 数组 编码 


纵 加 content 必 性 保 存 的 人 


00bbbbbb 长 度 小 于 等于 63 字 节 的 字 节 数组 
01bbbbbb XXXXXXXX 长 度 小 于 等 于 16 383 字 节 的 字 节 数组 
10 aaaaaaaa bbbbbbbb i , a 
re 5 字 书 长 度 小 于 等 于 4294 967 295 的 字 节 数组 
cccccccc dddddddd 


表 7-3 ”整数 编码 


编码 content 属性 保存 的 值 


11000000 int16 类 型 的 整数 
11010000 int32 t 类 型 的 整数 
11100000 1 字 节 int64 t 类 型 的 整数 
11110000 1 字 节 | 24 位 有 符号 整数 

















11111110 3 位 有 答 中 煌 
人 有 这 一生 的 世 上 没有 的 content 性， 内 为 本身 xexx 


llllxxxx 1 字 节 Me : a 
个 位 已 经 保存 了 一 个 介 于 0 和 12 之 间 的 值 ， 所 以 它 无 须 content 属性 


7.2.3 content 


节点 的 content 属 性 负责 保存 节点 的 值 ， 节 点 值 可 以 是 一 个 字 节 数组 
或 者 整数 ， 值 的 类 型 和 长 度 由 节点 的 encoding 属 性 决定 。 


图 7-9 展 示 了 一 个 保存 字 节 数组 的 节点 示例 : 

-编码 的 最 高 两 位 00 表 示 节 点 保存 的 是 一 个 字 节 数 组 ; 
-编码 的 后 六 位 001011 记 录 了 字 节 数组 的 长 度 11; 
content 属性 保存 着 节点 的 值 "hello world"。 


previous entry length encoding content 
ea 00001011 "nello world" 
图 7-9 ”保存 着 节 数 组 "hello world" 的 节点 
图 7-10 展 示 了 一 个 保存 整数 值 的 节 扣 示例 : 
previous entry length | encoding | content 
二 11000000 10086 
图 7-10 ”保存 着 整数 值 10086 的 节点 


:编码 11000000 表 示 节 点 保存 的 是 一 个 int16_t 类 型 的 整数 值 ; 


content 属 性 保存 着 节点 的 值 10086。 


7.3 ”连锁 更 新 


前 面 说 过 ， 每 个 节点 的 previous_entry_length 属 性 都 记录 了 前 一 个 节 
点 的 长 度 : 


-如果 前 一 节点 的 长 度 小 于 254 字 节 ， 那 么 previous_entry_length 属 性 
需要 用 1 字 节 长 的 空间 来 保存 这 个 长 度 值 。 


-如 果 前 一 节点 的 长 度 大 于 等 于 254 字 节 ， 那 么 previous_entry_length 
属性 需要 用 5 字 节 长 的 空间 来 保存 这 个 长 度 值 。 


现在 ， 考 虑 这 样 一 种 情况 : 在 一 个 压缩 列表 中 ， 有 多 个 连续 的 、 长 
度 介 于 250 字 节 到 253 字 节 之 间 的 节点 el 至 eN， 如 图 7-11 所 示 。 
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图 7-11 包含 节点 el 至 eN 的 压缩 列表 
为 el 至 eN 的 所 有 节点 的 长 度 都 小 于 254 字 节 ， 所 以 记录 这 些 节 点 





的 长 度 只 需要 1 字 节 长 的 previous_entry_length 属 性 ， 换 名 话说 ，el 至 eN 
的 所 有 节点 的 previous_entry_length 属 性 都 是 1 字 节 长 的 。 


这 时 ， 如 采 我 们 将 一 个 长 度 大 于 等 于 254 字 贡 的 新 节点 new 设 置 为 压 
缩 列 表 的 表 头 节 氮 ， 那 么 new 将 成 为 el 的 前 置 节 点 ， 如 图 7-12 所 示 。 


Ta TT Tre 





添加 新 节点 
图 7-12 ”添加 新 节点 到 压缩 列表 
为 el 的 previous_entry_length 属 性 仅 长 1 字 节 ， 它 没 办 法 保存 新 节 


点 new 的 长 度 ， 所 以 程序 将 对 压缩 列表 执行 空间 重 分 配 操作 ， 并 将 el1 节 
点 的 previous_entry_length 属 性 从 原来 的 1 字 节 长 扩展 为 5 字 节 长 。 


现在 ， 麻 烦 的 事情 来 了 ，el 原 本 的 长 度 介 于 250 字 节 至 253 字 节 之 
间 ， 在 为 previous_entry_length 属 性 新 增 四 个 字 节 的 空间 之 后 ，el 的 长 度 











束 变 成 了 介 于 254 字 节 至 257 字 节 之 间 ， 而 这 种 长 度 使 用 1 字 市 长 的 
previous_entry_length 属 性 是 没 办 法 保存 的 。 


因此 ， 为 了 让 e2 的 previous_entry_length 属 性 可 以 记录 下 el 的 长 度 ， 
程序 需要 再 次 对 压缩 列表 执行 空间 重 分 配 操作 ， 并 将 e2 节 点 的 
previous_entry_length 属 性 从 原来 的 1 字 节 长 扩展 为 5 字 节 长 。 


正如 扩展 el 引发 了 对 e2 的 扩展 一 样 ， 扩 展 e2 也 会 引发 对 e3 的 扩展 ， 
而 扩展 e3 又 会 引发 对 e4 的 扩展 .……… 为 了 证 每 个 节点 的 
Previous_entry_length 属 性 都 符合 压缩 列表 对 节点 的 要 求 ， 程 序 需要 不 断 
地 对 压缩 列表 执行 空间 重 分 配 操作 ， 直 到 eN 为 止 。 


Redis 将 这 种 在 特殊 情况 下 产生 的 连续 多 次 空间 扩展 操作 称 之 为 “ 连 
锁 更 新 ”(cascade update) ， 图 7-13 展 示 了 这 一 过 程 。 


除了 添加 新 节点 可 能 会 引发 连锁 更 新 之 外 ， 删 除 节 扣 也 可 能 会 引发 
连锁 更 新 。 


考虑 图 7-14 所 示 的 压缩 列表 ， 如 果 el 至 eN 都 是 大 小 介 于 250 字 节 至 
253 字 节 的 节点 ，big 节 点 的 长 度 大 于 等 于 254 字 节 《〈 需 要 5 字 节 的 
previous_entry_length 来 保存 ) ， 而 small 节 点 的 长 度 小 于 254 字 节 (只 需 
要 1 字 节 的 previous_entry_length 来 保存 ) ， 那 么 当 我 们 将 small 节 点 从 压 
缩 列 表 中 删除 之 后 ， 为 了 让 el 的 previous_entry_length 属 性 可 以 记录 big 
节点 的 长 度 ， 程 序 将 扩展 el 的 空间 ， 并 由 此 引发 之 后 的 连锁 更 新 。 
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扩展 el 
并 引发 对 e2 的 扩展 
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扩展 e2 
并 引发 对 e3 的 扩展 
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扩展 e3 
并 引发 对 e4 的 扩展 
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为 eN-1 扩展 eN 的 previous entry length 属性 
连锁 更 新 到 此 结束 
图 7-13 ”连锁 更 新 过 程 
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删 去 smal1 节 点 将 引发 连锁 更 新 
图 7-14” 男 一 种 引起 连锁 更 新 的 情况 


因为 连锁 更 新 在 最 坏 情 况 下 需要 对 压缩 列表 执行 N 次 空间 重 分 配 操 
作 ， 而 每 次 空间 重 分 配 的 最 坏 复 杂 度 为 0 CN) ， 上 所 以 连锁 更 新 的 最 坏 
复杂 度 为 O CN?) 。 

















要 注意 的 是 ， 尽 管 连锁 更 新 的 复杂 度 较 高 ， 但 它 真 正 造 成 性 能 问题 
的 几率 是 很 低 的 : 


首先 ， 压 缩 列 表 里 要 恰好 有 多 个 连续 的 、 长 度 介 于 250 字 节 至 253 
人 
J 


其 次 ， 即 使 出 现 连锁 更 新 ， 但 只 要 被 更 新 的 节点 数量 不 多 ， 就 不 
会 对 性 能 造成 任何 影响 ， 比 如 说 ， 对 三 五 个 闻 反 进行 连锁 更 新 是 绝对 不 


会 影响 性 能 的 ; 


因为 以 上 原因 ，ziplistPush 等 命令 的 平均 复杂 上 度 仅 为 O0 CN) ， 在 实 
际 中 ， 我 们 可 以 放心 地 使 用 这 些 函 数 ， 而 不 必 担 心 连锁 更 新 会 影响 压缩 
列表 的 性 能 。 




















7.4 压缩 列表 API 
表 7-4 列 出 了 所 有 用 于 操作 压缩 列表 的 API。 
表 7-4 压缩 列表 API 






兽 数 作用 算法 复杂 度 
ziplistNew 创建 一 个 新 的 压缩 列表 0 
创建 一 个 包含 给 定 值 的 新 节点 ， 并 将 这 
fpistpn | 清和 | 了 00) ON 
ep 将 包含 给 定 值 的 新 节点 插入 到 给 定 节点 的 O0W), 最 二 ol 
z 后 
ZiplistIndex 返回 压缩 列表 给 定 索 引 上 的 节点 ON) 
因为 节点 的 值 可 能 是 一 个 字 节 数组 ， 
ne 在 压缩 列表 中 查找 并 返回 包含 了 给 定 值 友 愉 答 查 节 点 值 和 结 定夺 是 到 本 的 和 
的 节点 杂 度 为 O(N)， 而 查找 整个 列表 的 复杂 度 
则 为 ON) 
ziplistNext 返回 给 定 节点 的 下 一 个 节操 0 
ziplistPreV 返回 给 定 节点 的 前 一 个 节操 0 
ziplistGet 0 
ziplistDelete 从 压缩 列表 中 删除 给 定 的 节点 平均 O(N), 最 坏 OWN) 
WU 删除 压缩 列表 在 给 定 索引 上 的 连续 多 个 平均 O00 最 二 O00 


节操 
ziplistBlobLen 返回 压缩 列表 目前 占用 的 内 存 字 节 数 OU) 
节点 数量 小 于 65 535 时 为 0)， 大 于 


| 汪 同 丰 近 列表 目前 亿 信 的 点 娄 
ZiplistLen 向 加 不 扣 列表 目 前 包含 的 节点 妆 量 65535 时 为 O(N) 





为 ziplistPush、ziplistInsert、ziplistDelete 和 ziplistDeleteRange 四 个 
函数 都 有 可 能 会 引发 连锁 更 新 ， 所 以 它们 的 最 坏 复 杂 度 都 是 O CN ?) 。 








7.5 重点 回顾 
.压缩 列表 是 一 种 为 节约 内 存 而 开发 的 顺序 型 数据 结构 。 
.压缩 列表 被 用 作 列 表 键 和 哈 希 键 的 底层 实现 之 一 。 


.压缩 列表 可 以 包含 多 个 节点 ， 每 个 节点 可 以 保存 一 个 字 节 数组 或 
者 整数 值 。 


添加 新 节点 到 压缩 列表 ， 或 者 从 压缩 列表 中 删除 节点 ， 可 能 会 引 
发 连锁 更 新 操作 ， 但 这 种 操作 出 现 的 几率 并 不 高 。 


第 8 章 ”对 象 


在 前 面 的 数 个 章节 里 ， 我 们 陆续 介绍 了 Redis 用 到 的 所 有 主要 数据 
结构 ， 比 如 简单 动态 字符 串 〈SDS) 、 双 端 链表 、 字 典 、 压 缩 列 表 、 整 
数 集合 等 等 。 


Redis 并 没有 直接 使 用 这 些 数 据 结构 来 实现 键 值 对 数据 库 ， 而 是 基 
于 这 些 数 据 结构 创建 了 一 个 对 象 系统 ， 这 个 系统 包含 字符 串 对 象 、 列 表 
对 象 、 哈 希 对 象 、 集 合 对 象 和 有 序 集合 对 象 这 五 种 类 型 的 对 象 ， 每 种 对 
象 都 用 到 了 至 少 一 种 我 们 前 面 所 介绍 的 数据 结构 。 


通过 这 五 种 不 同类 型 的 对 象 ，Redis 可 以 在 执行 命令 之 前 ， 根 据 对 
象 的 类 型 来 判断 一 个 对 象 是 否 可 以 执行 给 定 的 命令 。 使 用 对 象 的 为 一 个 
好 处 是 ， 我 们 可 以 针对 不 同 的 使 用 场景 ， 为 对 象 设 置 多 种 不 同 的 数据 结 
构 实现 ， 从 而 优化 对 象 在 不 同 场景 下 的 使 用 效率 。 


除 此 之 外 ，Redis 的 对 象 系统 还 实现 了 基于 引用 计数 技术 的 内 存 回 
收 机 制 ， 当 程序 不 再 使 用 某 个 对 象 的 时 候 ， 这 个 对 象 所 占用 的 内 存 束 会 
被 自动 释放 ; 另外 ，Redis 还 通过 引用 计数 技术 实现 了 对 象 共享 机 制 ， 
这 一 机 制 可 以 在 适当 的 条 件 下 ， 通 过 让 多 个 数据 库 键 共享 同一 个 对 象 来 
节约 内 存 。 

最 后 ，Redis 的 对 象 带 有 访问 时 间 记 录 信 息 ， 该 信息 可 以 用 于 计算 
数据 库 键 的 空转 时 长 ， 在 服务 器 局 用 了 maxmemory 功 能 的 情况 下 ， 空 转 
时 长 较 大 的 那些 键 可 能 会 优先 被 服务 器 删除 。 


本 章 接 下 来 将 逐一 介绍 以 上 提 到 的 Redis 对 象 系统 的 各 个 特性 。 











8.1 对 象 的 类 型 与 编码 


Redis 使 用 对 象 来 表示 数据 库 中 的 键 和 值 ， 每 次 当 我 们 在 Redis 的 数 
据 库 中 新 创建 一 个 键 值 对 时 ， 我 们 至 少 会 创建 两 个 对 象 ， 一 个 对 象 用 作 
键 值 对 的 键 〈 键 对 象 ) ， 另 一 个 对 象 用 作 键 值 对 的 值 〈 值 对 象 ) 。 


举 个 例子 ， 以 下 SET 命令 在 数据 库 中 创建 了 一 个 新 的 键 值 对 ， 其 中 
键 值 对 的 键 是 一 个 包含 了 字符 串 值 "msg" 的 对 象 ， 而 键 值 对 的 值 则 是 一 
个 包含 了 字符 串 值 "hello world" 的 对 象 : 








redis> SET msg "hello world" 
OK 


Redis 中 的 每 个 对 象 都 由 一 个 redisObject 结 构 表 示 ， 该 结构 中 和 保存 
数据 有 关 的 三 个 属性 分 别 是 type 属 性 、encoding 属 性 和 ptr 属 性 : 


typedef struct redisobject { 
a 


unsigned type:4; 
a 

编码 
unsigned encoding:4; 
了 

指向 底层 实现 数据 结构 的 指针 
Void -二 四 攻关 


} robj; 


8.1.1 ”类 型 


对 象 的 type 属 性 记录 了 对 象 的 类 型 ， 这 个 属性 的 值 可 以 是 表 8-1 列 出 
的 第 量 的 其 中 一 个 。 


表 8-1 ”对象 的 类 型 


类 型 常量 对 象 的 名 称 


REDIS STRING 字符 串 对 象 
REDIS LIST 列表 对 象 
REDIS HASH 哈 希 对 和 象 
REDIS SET 集合 对 象 
REDIS ZSET 有 序 集合 对 象 


对 于 Redis 数 据 库 保存 的 键 值 对 来 说 ， 键 总 是 一 个 字符 串 对 象 ， 而 
值 则 可 以 是 字符 串 对 象 、 列 表 对 象 、 哈 希 对 象 、 集 合 对 象 或 者 有 序 集合 
对 象 的 其 中 一 种 ， 因 此 : 


当 我 们 称呼 一 个 数据 库 键 为 “字符 串 键 ?> 时， 我 们 指 的 是 “这 个 数据 
库 键 所 对 应 的 值 为 字符 串 对 象 ”; 


` 当 我 们 称呼 一 个 键 为 “列表 键 * 时 ， 我 们 指 的 是 “这 个 数据 库 键 所 对 
应 的 值 为 列表 对 象 ”。 


TYPE 命 令 令 办 实现 廊 式 也 与 此 类 似 ， 当 我 们 对 一 个 数据 库 键 执行 
TYPE 命 令 时 ， 命 令 返 回 的 结果 为 数据 库 键 对 应 的 值 对 象 的 类 型 ， 而 不 
是 键 对 象 的 类 型 : 








# 
键 为 字符 串 对 象 ， 值 为 字符 串 对 象 
redis> SET msg "hello world" 


OK 
redis> TYPE msg 
string 


# 

键 为 字符 串 对 象 ， 值 为 列表 对 象 
redis> RPUSH numbers 1 3 5 
(integer) 6 

ess s> TYPE numbers 

2 


和 为 字符 中 对 象 ， 值 为 哈 希 对 象 
S> HMSET profile name Tom age 25 career Programmer 


ei s> TYPE profile 
sh 


入 为 字 人 中 对 名， 值 为 集合 对 象 
1 SADD fruits apple banana cherry 
Gn teger) 3 
redis> TYPE fruits 
set 
# 





键 为 字符 串 对 象 ， 值 为 有 序 集合 对 象 
redis> ZADD price 8.5 apple 5.0 banana 6.0 cherry 





表 8-2 列 出 了 TYPE 命 令 在 面 对 不 同类 型 的 值 对 象 时 所 产生 的 输出 。 
表 8-2 不 同类 型 值 对 象 的 TYPE 命 令 输 出 


对 象 TYPE 命令 的 输出 
集合 对 象 "set" 


8.1.2 ”编码 和 底层 实现 


对 象 的 ptr 指 针 指 向 对 象 的 底层 实现 数据 结构 ， 而 这 些 数 据 结 构 由 对 
象 的 encoding 属 性 决定 。 


encoding 属 性 记录 了 对 象 所 使 用 的 编码 ， 也 即 是 说 这 个 对 象 使 用 了 
这 个 属性 的 值 可 以 是 表 8-3 列 出 的 
常量 的 其 中 一 个 。 





表 8-3 ”对象 的 编码 


编码 常量 编码 所 对 应 的 底层 数据 结构 


REDIS ENCODING INT long 类 型 的 整数 

REDIS ENCODING EMBSTR embstr 编码 的 简单 动态 字符 
REDIS ENCODING RAW 简单 动态 字符 下 

REDIS ENCODING HT 宁 典 

REDIS ENCODING LINKEDLIST 双 刘 链表 

REDIS ENCODING ZIPLIST 压缩 列表 

REDIS ENCODING INTSET 下 数 集合 

REDIS ENCODING SKIPLIST 跳跃 表 和 字典 











每 种 类 型 的 对 象 都 全 少 使 用 了 两 种 不 同 的 编码 ， 表 8-4 列 出 了 每 种 
类 型 的 对 象 可 以 使 用 的 编码 。 


表 8-4 不 同类 型 和 编码 的 对 象 


类 型 编 如 对 象 
REDIS STRING | REDIS ENCODING INT 使 用 整数 但 实现 的 字符 串 对 旬 


REDIS STRING | REDIS ENCODING EMBSTR ”| 使 用 embstz 编 取 的 多 单 动 仿 字符 串 实现 的 字符 串 对 旬 
REDIS STRING | REDIS ENCODING RAN 使 用 午 单 动 仿 字 符 串 实现 的 字符 串 对 旬 
REDIS IIST ”| REDIS ENCODING 2IPLIST | 使 用 压缩 列表 实现 的 列表 对 旬 


| 
De | 





REDIS LIST ”| REDIS ENCODING LINKEDLIST | 使 用 双 端 链表 实现 的 列表 对 象 
REDIS HASH “| REDIS ENCODING 2IPLIST | 使 用 压缩 列表 实现 的 哈 希 对 象 





REDIS HASH | REDIS ENCODING HT 使 用 字典 实现 的 哈 希 对 象 
REDIS SET | REDIS ENCODING INTSET 使 用 整数 集合 实现 的 集合 对 象 
REDIS SET 。 | REDIS ENCODING HT 使 用 字典 实现 的 集合 对 旬 


REDIS 2SET | REDIS ENCODING 2IPLIST | 使 用 压缩 列表 实现 的 有 序 集合 对 象 
REDIS ZSET ”| REDIS ENCODING SKIPLIST ”| 使 用 跳跃 表 和 字典 实现 的 有 序 集合 对 象 

















使 用 OBJECT ENCODING 命 令 可 以 查看 一 个 数据 库 键 的 值 对 象 的 编 
位 : 





redis> SET msg "hello wrold" 
redis> OBJECT ENCODING msg 
"embstr" 

redis> SET story "long long long long long long ago ..." 
OK 

redis> OBJECT ENCODING story 
mrawn 

redis> SADD numbers 1 3 5 
(integer) 3 

redis> OBJECT ENCODING numbers 
SINESet 

redis> SADD numbers "seven" 
(integ 


er)1 
redis> OBJECT ENCODING numbers 
"hashtable" 





表 8-5 列 出 了 不 同 编码 的 对 象 所 对 应 的 OBJECT ENCODING 合 令 输 


表 8-5 OBJECT ENCODING 对 不 同 编码 的 输出 


对 象 所 使用 的 底数 据 结 和 OBJECTENCODIVG 命令 办 册 


embstr 编码 的 简单 动态 字符 
REDI9 ENCODING _ EMBSTR "embstr" 
串 (SDS ) 


入 单 动态 字符 趾 REDIS ENCODING RAW "raw" 
字典 REDIS ENCODING HT "hashtable" 
( 续 ) 


对 象 所 使 用 的 底层 数据 结构 编码 常量 0BJECTENCODING 命令 输出 
双 问 链表 REDIS ENCODING LINKEDLIST "]inkedlist" 
压缩 列表 DIS ENCODING ZIPLIST "ziplist" 


整数 集合 DIS ENCODING INTSET mintset" 




















pH es) CI 
Ej [sa| [sa| 
ee | J J 
= 1 1 
i i i . 
Ed Ed Ed 
之 之 = 
本 CC ca 
C2 OO OO 
3 3 Do 
上 -一 1 4 4 
| | | | 


跳跃 表 和 字典 NG SKIPLIST "skiplist" 





通过 encoding 属 性 来 设 定 对 象 所 使 用 的 编码 ， 而 不 是 为 特定 类 型 的 
对 象 关 联 一 种 固定 的 编码 ， 极 大 地 提升 了 Redis 的 灵活 性 和 效率 ， 因 为 
Redis 可 以 根据 不 同 的 使 用 场景 来 为 一 个 对 象 设置 不 同 的 编码 ， 从 而 优 
化 对 象 在 茶 一 场景 下 的 效率 。 


举 个 例子 ， 在 列表 对 象 包含 的 元 素 比 较 少 时 ，Redis 使 用 压缩 列表 
作为 列表 对 象 的 底层 实现 : 


:因为 压缩 列表 比 双 端 链表 更 节约 内 存 ， 并 且 在 元 素数 量 较 少时 ， 
ee 索 块 方式 保存 的 压缩 列表 比 起 双 端 链表 可 以 更 快 被 载 入 到 
绥 存 


` 随 看 列表 对 象 包含 的 元 素 越 来 越 多 ， 使 用 压缩 列表 来 保存 元 系 的 
优势 逐渐 消失 时 ， 对 象 就 会 将 压 层 实现 从 压缩 列表 转向 功能 更 强 、 也 更 
适合 保存 大 量 元 素 的 双 端 链表 上 面 ; 























其 他 类 型 的 对 象 也 会 通过 使 用 多 种 不 同 的 编码 来 进行 类 似 的 优化 。 


在 接 下 来 的 内 容 中 ， 我 们 将 分 别 介绍 Redis 中 的 五 种 不 同类 型 的 对 
象 ， 说 明 这 些 对 象 底层 所 使 用 的 编码 方式 ， 列 出 对 象 从 一 种 编码 转换 成 
0 
和 


8.2 字符 串 对 象 
字符 串 对 象 的 编码 可 以 是 int、raw 或 者 embstr。 
如 果 一 个 字符 串 对 象 保存 的 是 整数 值 ， 并 且 这 个 整数 值 可 以 用 long 
字符 串 对 象 会 将 整数 值 保存 在 字符 串 对 象 结构 的 ptr 属 


类 型 来 表示 ， 那 么 字符 
性 里 面 “ 将 void* 转 换 成 long) ， 并 将 字符 串 对 象 的 编码 设置 为 int。 


redisObject 


type 
REDIS STRING 
g 


encodin 
REDIS ENCODING INT 





图 8-1 int 编 码 的 字符 串 对 象 


举 个 例子 ， 如 果 我 们 执行 以 下 SET 命令 ， 那 么 服务 器 将 创建 一 个 如 
图 8-1 所 示 的 int 编 码 的 字符 串 对 象 作 为 number 键 的 值 : 





redis> SET number 10086 


OK 
redis> OBJECT ENCODING number 
wint" 





如 打字 符 串 对 象 保存 的 是 一 个 字符 串 值 ， 并 且 这 个 字符 串 值 的 长 度 
大 于 32 字 节 ， 那 么 字符 捉 对 象 将 使 用 一 个 简单 动态 字符 串 (SDS) 来 保 
存 这 个 字符 串 值 ， 并 将 对 象 的 编码 设置 为 raw。 


举 个 例子 ， 如 果 我 们 执行 以 下 命令 ， 那 么 服务 器 将 创建 一 个 如 图 8- 
2 所 示 的 raw 编 码 的 字符 串 对 象 作 为 story 键 的 值 : 





redisObject 


type 
REDIS STRING 
encoding 
REDIS ENCODING RAW 









aE 


图 8-2 raw 编码 的 字符 串 对 象 








redis> SET story "Long, long ago there lived a king ..." 
OK 

redis> STRLEN story 

(integer) 37 

redis> OBJECT ENCODING story 

mrawn 





如 果 字 符 串 对 象 保存 的 是 一 个 字符 串 值 ， 并 且 这 个 字符 串 值 的 长 度 
小 于 等 和 32 字 节 那么 字符 串 对 象 将 使 用 embstr 编 码 的 方式 来 保存 这 个 
字符 串 值 。 


embstr 编 码 是 专门 用 于 保存 短 字 符 串 的 一 种 优化 编码 方式 ， 这 种 编 
码 和 raw 编 码 一 样 ， 都 使 用 redisObject 结 构 和 sdshdr 结 构 来 表示 字符 串 对 
象 ， 但 raw 编 码 会 调用 两 次 内 存 分 配 函 数 来 分 别 创建 redisObject 结 构 和 
hd 吉 构 ， 而 embstr 编 码 则 通过 调用 一 次 内 存 分 配 函 数 来 分 配 一 块 连 
续 的 空间 ， 空 间 中 依次 包含 redisObject 和 sdshdr 两 个 结构 ， 如 图 8-3 所 
示 。 











redisObject sdshdr 





me | wrong [oer [| ree | en | ve 


图 8-3 ee 吉 构 


embstr 编 码 的 字符 串 对 象 在 执行 命令 时 ， 产 生 的 效果 和 raw 编 码 的 
字符 串 对 象 执行 命令 时 产生 的 效果 是 相同 的 ， 但 使 用 embstr 编 码 的 字符 
串 对 象 来 保存 短 字 符 串 值 有 以 下 好 处 : 











-embstr 编 码 将 创建 字符 串 对 象 所 需 的 内 存 分 配 次 数 从 raw 编 码 的 两 
次 降低 为 一 次 。 


“释放 embstr 编 码 的 字符 串 对 象 只 需要 调用 一 次 内 存 释放 函数 ， 而 释 
放 raw 编 码 的 字符 串 对 象 需 要 调用 两 次 内 存 释放 函数 。 
-因为 embstr 编 码 的 字符 串 对 象 的 所 有 数据 都 保存 在 一 块 连续 的 内 存 


里 面 ， 所 以 这 种 编码 的 字符 串 对 象 比 起 raw 编 码 的 字符 串 对 象 能 够 更 好 
地 利用 缓存 带 来 的 优势 。 


作为 例子 ， 以 下 命令 创建 了 一 个 embstr 编 码 的 字符 串 对 象 作 为 msg 
键 的 值 ， 值 对 象 的 样子 如 图 8-4 所 示 : 





redis> SET msg "hello" 

OK 

redis> OBJECT ENCODING msg 
"embstr" 


type ee i I bf 
REDIS STRING | REDIS ENCODING EMBSTR 四 加 相国 廿 本 


图 8-4 ”embstr 编 码 的 字符 品 对 象 


最 后 要 说 的 是 ， 可 以 用 long double 类 型 表示 的 浮 点 数 在 Redis 中 也 是 
作为 字符 串 值 来 保存 的 。 如 果 我 们 要 保存 一 个 浮 点 数 到 字符 串 对 象 里 
人 和 然后 再 保存 转换 所 得 
字符 串 值 。 


举 个 例子 ， 执 行 以 下 代码 将 创建 一 个 包含 3.14 的 字符 串 表 
示 “3.14” 的 字符 串 对 象 : 











redis> SET pi 3.14 

OK 

redis> OBJECT ENCODING pi 
"embstr" 





在 有 需要 的 时 候 ， 程 序 会 将 保存 在 字符 串 对 象 里 面 的 字符 串 值 转换 


回 浮 点 数值 ， 执 行 东 些 操 作 ， 然 后 再 将 执行 操作 所 得 的 浮 点 数值 转换 回 
字符 串 值 ， 并 继续 保存 在 字符 串 对 象 里 面 。 


举 个 例子 ， 如 果 我 们 执行 以 下 代码 : 








redis> INCRBYFLOAT pi 2.0 
"5.14" 

redis> OBJECT ENCODING pi 
"embstr" 








那么 程序 首先 会 取出 字符 串 对 象 里 面 保存 的 字符 串 值 "3.14"， 将 它 
转换 回 浮 点 数值 3.14， 然 后 把 3.14 和 2.0 相 加 得 出 的 值 5.14 转 换 成 字符 
串 "5.14"， 并 将 这 个 "5.14" 保 存 到 字符 串 对 象 里 面 。 表 8-6 总 结 并 列 出 了 
字符 串 对 象 保存 各 种 不 同类 型 的 值 所 使 用 的 编码 方式 。 

表 8-6 字符 串 对 象 保存 各 类 型 值 的 编码 方式 
值 编码 
可 以 用 long 类 型 保存 的 整数 int 
可 以 用 long double 类 型 保存 的 浮 点 数 embstr 或 者 raw 
字符 串 但 ， 或 者 因为 长 度 太 大 而 没 办 法 用 long 类 型 表示 的 整数 ， 又 或 者 因为 长 


和 和 embstr 或 者 raw 
度 太 大 而 没 办 法 用 long double 类型 表示 的 泽 扣 儿 


8.2.1 ”编码 的 转换 


int 编 码 的 字符 串 对 象 和 embstr 编 码 的 字符 串 对 象 在 条 件 满足 的 情况 
下 ， 会 被 转换 为 r aw 编码 的 字符 串 对 象 。 


对 于 int 编 码 的 字符 串 对 象 来 说 ， 如 果 我 们 同 对 象 执行 了 一 些 命 
使 得 这 个 对 象 保存 的 不 再 是 整数 值 ， 而 是 一 个 字符 串 值 ， 那 么 字符 
象 的 编码 将 从 int 变 为 raw。 


在 下 面 的 示例 中 ， 我 们 通过 APPEND 命 令 ， 向 一 个 保存 整数 值 的 字 
符 吕 对 象 奶 加 了 一 个 字符 串 值 ， 因 为 退 加 操作 只 能 对 字符 串 值 执行 ， 所 
以 程序 会 先 将 之 前 保存 的 整数 值 10086 转 换 为 字符 串 值 "10086"， 然 后 再 





今 
串 


对 


执行 退 加 操作 ， 操 作 的 执行 结 末 束 是 一 个 raw 编 码 的、 保存 了 字符 串 值 
的 字符 串 对 象 : 





edis> SET number 10086 
redis> OBJECT ENCODING number 
int 


redis> APPEND number " is a good number!" 


good mb 
eo 5S> OBJECT NCOD TN number 





另外 ， 因 为 Redis 没 有 为 embstr 编 码 的 字符 串 对 象 编写 任何 相应 的 修 
改 程序 (只 有 int 编 码 的 字符 串 对 象 和 raw 编 码 的 字符 串 对 象 有 这 些 程 
序 ) ， 所 以 embstr 编 码 的 字符 串 对 象 实际 上 是 只 读 的 。 当 我 们 对 embstr 
编码 的 字 符 串 对 象 执 行 任何 修改 命令 时 ， 程 序 会 先 将 对 象 的 编码 从 
embstr 转 换 成 raw， 然 后 www 因为 这 个 原因 ，embstr 编 码 的 
0 会 变 成 一 个 raw 编 码 的 字符 串 对 














以 下 代码 展示 了 一 个 embstr 编 码 的 字符 串 对 象 在 执行 APPEND 命 令 
之 后 ， 对 象 的 编码 从 embstr 变 为 raw 的 例子 : 





redis> SET msg "hello world" 
OK 
redis> OBJECT ENCODING msg 


ger) 
a 5S OBJECT ENCODING msg 





8.2.2 ”字符 串 命令 的 实现 

因为 字符 串 键 的 值 为 字符 串 对 象 ， 所 以 用 于 字符 串 键 的 所 有 命令 都 
是 针对 字符 串 对 象 来 构建 的 ， 表 8-7 列 举 了 其 中 一 部 分 字符 串 命 令 ， 以 
及 这 些 命 令 在 不 同 编 码 的 字符 串 对 象 下 的 实现 方法 。 


表 8-7 字符 串 命令 的 实现 


锥 Bl 扩 的 实现 方 
到 全 用 av 久保 
找 贝 对 象 所 保存 的 整数 值 ， 将 | | 四 
a 这 个 拓 风 转 所 字 和 于， 然后 直接 向 客 户 端 返回 字符 0 
向 客户 端 返 回 这 个 字符 串 值 
将 对 象 转换 成 ravw 编码 ， 然 | 将 对 象 转换 成 raw 编码 ，| ”调用 sdscatlen 函数 ， 将 
4PPEND | 后 按 raw 编 码 的 方式 执行 此 | 然后 按 raw 编码 的 方式 执行 | 给 定 字符 串 追 加 到 现 有 字符 串 
操作 此 操作 的 未 尾 
取出 字符 串 值 并 党 试 将 其 | 取出 字符 串 值 并 党 斌 将 其 转 
取出 整数 值 并 将 其 转换 成 | 转换 成 long double 类 型 的 | 换 成 long double 类 型 的 
long double 类 型 的 学 点 数 ，| 浮 点 数 ， 对 这 个 浮 点 数 进行 加 | 浮 点 数 ， 对 这 个 浮 点 数 进行 
JNCRBYFLOAT | 对 这 个 浮 点 数 进行 加 法 计算 ，| 法 计算 ， 然 后 将 得 出 的 浮 点 数 | 加 法 计算 ， 然 后 将 得 出 的 滔 
然后 将 得 出 的 浮 点 数 结果 保存 | 结果 保存 起 来 。 如 果 字 符 串 | 点 数 结果 保存 起 来 。 如 果 字 
起 来 值 不 能 被 转换 成 浮 点 数 ， 那 | 符 串 值 不 能 被 转换 成 浮 点 数 ， 
么 问 客户 端 返回 一 个 错误 。 | 那么 向 客户 端 返回 一 个 错误 





对 整数 值 进行 加 法 计算 ， 得 
INCRBY 出 的 计算 结果 会 作为 整数 被 保 
存 起 来 


embstr 编码 不 能 执行 此 | raw 编码 不 能 执行 此 命令 ， 
命令 ， 回 客户 六 & 回 一 个 钳 器 “| 向 客户 端 返 回 一 个 错误 


DECRBY 


STRLEN 


SETRANGE 


GETRANGE 





对 整数 值 进行 减法 计算 ， 得 
embstr 编码 不 能 执 和 ay 妨 权 不 能 执行 此 含 今 
上 的 计算 结果 会 作为 要 被 保 | “tr 顷 友 不 能 此 raw 弥生 


人 全 ,六 外 -人名 | 向 客户 只 返回 一 个展 


川 坝 人 
天 所 和 调用 sdslen 图 数 ， 返 加 | 调用 sdslen 图 数 ， 返 回 
这 人 全， 计生 | 字 竺 的 发 字条 的 
并 返回 这 个 字符 串 值 的 长 度 


棵 成 raw 编 了 钛 ee 将 字符 特定 索引 上 的 人 
扩 mov | 调和 


指 贝 对 象 所 保存 的 整数 值 ， 
将 这 个 拷贝 转换 成 字符 串 值 ，| ”直接 取出 并 返回 字符 囊 指 | 。 下 按 取 出 并 返回 字符 串 指 
然后 取出 并 返回 字符 串 指定 索 | 定 索引 上 的 字符 是 索引 上 的 字符 
引 上 的 字符 


8.3 列表 对 象 
列表 对 象 的 编码 可 以 是 ziplist 或 者 linkedlist。 
ziplist 编 码 的 列表 对 象 使 用 压缩 列表 作为 底层 实现 ， 每 个 压缩 列表 


市 友 (entry) 保存 了 一 个 列表 元 系 。 举 个 例子 ， 如 果 我 们 执行 以 下 
RPUSH 命 令 ， 那 么 服务 器 将 创建 一 个 列表 对 象 作为 umbers 键 的 值 : 








redis> RPUSH numbers 1 "three" 5 
(integer) 3 


如 果 numbers 键 的 值 对 象 使 用 的 是 ziplist 编 码 ， 这 个 这 个 值 对 象 将 会 
是 图 8-5 所 展示 的 样子 。 


redisObject 


type 
REDIS LIST 


encoding 
REDIS ENCODING ZIPLIST 


图 8-5 ”ziplist 编 码 的 numbers 列 表 对 象 


男 一 方面 ，linkedlist 编 码 的 列表 对 象 使 用 双 端 链表 作为 底层 实现 ， 
每 个 双 端 链表 市 把 (node)〉 都 保存 了 一 个 字符 串 对 象 ， 而 每 个 字符 串 对 
象 都 保存 了 一 个 列表 元 素 。 


Eo 0 





举 个 例子 ， 如 果 前 面 所 说 的 numbers 键 创建 的 列表 对 象 使 用 的 不 是 
ziplist 编 码 ， 而 是 linkedlist 编 码 ， 那 么 numbers 键 的 值 对 象 将 是 图 8-6 所 示 
的 样子 。 





图 8-6 jlinkedlist 编 码 的 numbers 列 表 对 象 





注意 ，linkedlist 编 码 的 列表 对 象 在 底层 的 双 端 链表 结构 中 包含 了 多 
个 字符 溃 对 象 ， 这 种 仍 套 字符 溃 对 象 的 行为 在 稍 后 介绍 的 哈 希 对 象 、 集 
合 对 象 和 有 序 集 合 对 象 中 都 会 出 现 ， 字 符 串 对 象 是 Redis 五 种 类 型 的 对 
象 中 唯一 一 种 会 被 其 他 四 种 类 型 对 象 镑 人 套 的 对 象 。 





/注音 
为 了 简化 字符 串 对 象 的 表示 ， 我 们 在 图 8-6 使 用 了 一 个 高 有 
StringObject 字 样 的 格子 来 表示 一 个 字符 串 对 象 ， 而 StringObject 字 样 下 


面 的 是 字符 串 对 象 所 保存 的 值 。 比 如 说 ， 图 8-7 代 表 的 就 是 一 个 包含 了 
字符 串 值 "three" 的 字符 串 对 象 ， 它 是 图 8-8 的 简化 表示 。 


Stringobject 
"three" 
图 8-7 ”简化 的 字符 串 对 象 表示 


rorisobjent 
type encoding rr| | free |len 
REDIS STRING | REDIS ENCODING EMBSTR | 0 | 5 eTaTrTeTeT 


图 8-8 完整 的 字符 串 对 象 表示 





本 书 接 下 来 的 内 容 将 继续 沿用 这 一 简化 表示 。 
8.3.1 ”编码 转换 


当 列 表 对 象 可 以 同时 满足 以 下 两 个 条 件 时 ， 列 表 对 象 使 用 ziplist 编 
码 : 


列表 对 象 保存 的 所 有 字符 串 元 素 的 长 度 都 小 于 64 字 节 ; 


.列表 对 象 保存 的 元 素数 量 小 于 512 个 ; 不 能 满足 这 两 个 条 件 的 列表 
对 象 需要 使 用 linkedlist 编 码 。 


站 mm 
| 


所 } Se 
SS 一 十 局 


以 上 两 个 条 件 的 上 限 值 是 可 以 修改 的 ， 有 具体 请 看 配置 文件 中 关于 
list-max-ziplist-value 选 项 和 1list-max-ziplist-entries 选 项 的 说 明 。 


对 于 使 用 ziplist 编 码 的 列表 对 象 来 说 ， 当 使 用 ziplist 编 码 所 需 的 两 个 
条 件 的 任意 一 个 不 能 被 满足 时 ， 对 象 的 编码 转换 操作 束 会 被 执行 ， 原 本 
保存 在 压缩 列表 里 的 所 有 列表 元 素 都 会 被 转移 并 保存 到 双 端 链表 里 面 ， 
对 象 的 编码 也 会 从 ziplist 变 为 linkedlist。 


本 下 代码 展示 了 列表 对 象 因为 保存 了 长 度 太 大 的 元 素 而 进行 编码 转 
情况: 
































# 

所 有 元 素 的 长 度 都 小 于 64 

redis> RPUSH blah "hello" "world" "again" 
(integer 

redis> OBJECT ENCODING blah 

"ziplist" 


将 一 个 65 

字 节 长 的 元 素 推 入 列表 对 象 中 

redis> RPUSH blah "wwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww"” 
i 4 





(integer) 

# 

编码 已 改变 

redis> OBJECT ENCODING blah 
"linkedlist" 











除 此 之 外 ， 以 下 代码 展示 了 列表 对 象 因为 保存 的 元 系数 量 过 多 而 进 
行 编码 转换 的 情况 : 


# 
列表 对 象 包含 512 
个 元 素 


redis> EVAL "for i=1，512 do redis.call('RPUSH', KEYS[1],i)end" 1 "integers" 
(nil) 

redis> LLEN 9 

(integer) 5 

redis> DenEcT ENCODING integers 


列表 -个 新 元 素 ， 使 得 对 象 保存 的 元 素数 量 达到 513 


redisy RPUSH integers 513 
{htegery 所 和 


篇 码 已 改变 
redis> OBJECT ENCODING integers 
"linkedlist" 





8.3.2 ”列表 命令 的 实现 


因为 列表 键 的 值 为 列表 对 象 ， 所 以 用 于 列表 键 的 所 有 命令 都 是 针对 


列表 对 象 来 构建 的 ， 表 8-8 列 出 了 其 中 一 部 分 列表 键 命令 ， 以 及 这 些 命 
令 在 不 同 编码 的 列表 对 象 下 的 实现 方法 。 


表 8-8 ”列表 命令 的 实现 


命令 ziplist 编码 的 实现 方法 inkedlist 编码 的 实现 方法 


调用 ziplistPpush 函数 ， 将 新 元 素 推 人 到 压 | ”调用 1istaqdNodeHead 函数 ， 将 新 元 素 扒 
缩 列 表 的 表 头 入 到 双 闪 链表 的 表 头 


调用 ziplistpush 函数 ， 将 新 元 素 椎 人 到 压 | ”调用 1istAddNodeTail 函数 ， 将 新 元 素 推 
缩 列表 的 表 尾 人 到 双 端 链表 的 表 尾 


调用 ziplistIndex 函数 定位 压缩 列表 的 表 | ”调用 1istFirst 图 数 定 位 双 端 链表 的 表 关节 

LPOP | 关节 点 ， 在 向 用 户 返 回 节点 所 保存 的 无 素 之 后 ，| 点 ， 在 向 用 户 返回 节点 所 保存 的 元 素 之 后 ,调用 
调用 ziplistDelete 图 数 删除 表 头 节点 1istDelNode 函数 删除 表 头 书 点 

调用 ziplistIndex 图 数 定位 压缩 列表 的 表 | ”调用 1istLast 函数 定位 双 端 链表 的 表 尾 节 

RPOP | 尾 节 点 ， 在 向 用 户 返 回 节点 所 保存 的 元 素 之 后 ，| 点 ， 在 问 用 户 返 回 节点 所 保存 的 元 素 之 后 ， 调 用 
调用 ziplistDelete 函数 删除 表 尾 节 点 ]istDelNode 图 数 删除 表 尾 节点 


调用 ziplistIndex 函数 定位 压缩 列表 中 的 | 调用 1istIndex 函数 定位 双 端 链表 中 的 指定 
指定 节点 ， 然 后 返回 节点 所 保存 的 元 素 书后 ， 然 后 返回 节点 所 保存 的 元 素 
LLEN 调用 ziplistLen 函数 返 回 压缩 列表 的 长 度 油 用 1istLength 函数 返回 双 此 链表 的 长 度 


插入 新 节点 到 压缩 列表 的 表 头 或 者 表 尾 时 ， 使 
LINSERT | 用 ziplistpush 函数 ， 插 入 新 节点 到 压缩 列表 
的 其 他 位 置 时 ， 使 用 ziplistInsert 函数 





RPUSH 


LINDEX 


调用 1istInsertNode 图 数 ， 将 新 节点 插入 
到 双 端 链表 的 指定 位 置 


遇 历 压缩 列表 节点 ， 并 调用 ziplistDelete | 遍历 双 疾 链表 节点 ， 并 调用 listDelNode 了 
胃 数 删除 包含 了 给 定 元 素 的 节点 数 删 除 包含 了 给 定 元 素 的 节点 


调用 ziplistDeleteRange 图 数 ， 删 除 压 | 过 历 双 端 链表 节点 ， 并 调用 1istDelNode 图 
缩 列表 中 所 有 不 在 指定 索引 范围 内 的 节点 数 删除 链表 中 所 有 不 在 指定 索引 范围 内 的 节点 


调用 ziplistDelete 阴 数 ， 先 删除 压缩 列 
表 指 定 索引 上 的 现 有 节点 ， 然 后 调用 ziplist- | 调用 1istIndex 函数 ， 定 位 到 双 端 链表 指定 
Insert 立 数 ， 将 一 个 包含 给 定 元 素 的 新 节点 插 | 索引 上 的 节点 ， 然 后 通过 赋值 操 作 更 新 节点 的 值 
人 到 相同 索引 上 面 


LREM 






LIRIM 


LSET 


8.4 了 哈 希 对 象 

哈 希 对 象 的 编码 可 以 是 ziplist 或 者 hashtable。 

ziplist 编 码 的 哈 硕 对 象 使 用 压缩 列表 作为 底层 实现 ， 每 当 有 新 的 键 
值 对 要 加 入 到 哈 硕 对 象 时 ， 程 序 会 先 将 保存 了 键 的 压缩 列表 节点 推 入 到 


压缩 列表 表 尾 ， 然 后 再 将 保存 了 值 的 压缩 列表 节点 推 入 到 压 编 列表 表 
尾 ， 因 此 : 


保存 了 同一 键 值 对 的 两 个 节点 总 是 紧 挨 在 一 起 ， 保 存 键 的 节点 在 
前 ， 保 存 值 的 市 点 在 后 ; 


` 先 添加 到 哈 希 对 象 中 的 键 值 对 会 被 放 在 压缩 列表 的 表 头 方 铝 ， 而 
后 来 谎 加 到 哈 硕 对 象 中 的 键 值 对 会 被 放 在 压缩 列表 的 表 尾 方 辣 。 


举 个 例子 ， 如 果 我 们 执行 以 下 HSET 命 令 ， 那 么 服务 器 将 创建 一 个 
列表 对 象 作为 profile 键 的 值 : 














redis> HSET profile name "Tom" 
(integer) 1 

redis 

(integer) 1 

redis> HSET profile career "Programmer" 
(integer) 1 


> HSET profile age 25 





如 果 profile 键 的 值 对 象 使 用 的 是 ziplist 编 码 ， 那 么 这 个 值 对 象 将 会 是 
图 8-9 所 示 的 样子 ， 其 中 对 象 所 使 用 的 压缩 列表 如 图 8-10 所 示 。 










redisObject 


type 
REDIS HASH 
encoding 
REDIS ENCODING ZIPLIST 


| 
[| 


图 8-9 ziplist 编 码 的 profile 哈 希 对 象 





第 一 个 添加 的 甸 信 对 入 一 人 添加 的 键 信 
! 键 “、 什 


2lbytes | zl1tail |zllen| "name" ee "career"| "Programmer" 





图 8-10 ”profile 哈 希 对 象 的 压缩 列表 底层 实现 


劝 一 方面 ，hashtable 纺 码 的 哈 希 对 象 使 用 字典 作为 底层 实现 ， 哈 硕 
对 象 中 的 每 个 键 值 对 都 使 用 一 个 字典 键 值 对 来 保存 : 


字典 的 每 个 键 部 是 一 个 字符 串 对 象 ， 对 象 中 保存 了 键 值 对 的 键 ; 
字典 的 每 个 值 都 是 一 个 字符 串 对 象 ， 对 象 中 保存 了 键 值 对 的 值 。 


举 个 例子 ， 如 果 前 面 profile 键 创建 的 不 是 ziplist 编 码 的 哈 希 对 象 ， 而 
是 hashtable 编 码 的 哈 希 对 象 ， 那 么 这 个 哈 希 对 象 应 该 会 是 图 8-11 所 示 的 
下 











dict 





StringObject 
25 
StringObject 
"Programmer" 
StringObject 
i Tom" 


图 8-11 ” ”hashtable 编码 的 profile 哈 希 对 象 


8.4.1 ”编码 转换 


当 哈 希 对 象 可 以 同时 满足 以 下 两 个 条 件 时 ， 哈 希 对 象 使 用 ziplist 编 
码 : 


` 蛤 希 对 象 保存 的 所 有 键 值 对 的 键 和 值 的 字符 串 长 度 都 小 于 64 字 


StringObject 
"age" 






StringObject 
"career" 






StringObject 
"name" 





二 


. 哈 希 对 象 保存 的 键 值 对 数量 小 于 512 个 ; 不 能 满足 这 两 个 条 件 的 哈 
锅 对 象 需要 使 用 hashtable 编 码 。 


由 
We 注意 


这 两 个 条 件 的 上 限 值 是 可 以 修改 的 ， 有 具体 请 看 配置 文件 中 关于 hash- 
max-ziplist-value 选 项 和 hash-max-ziplist-entries 选 项 的 说 明 。 








对 于 使 用 ziplist 编 码 的 列表 对 象 来 说 ， 当 使 用 ziplist 编 码 所 需 的 两 个 
条 件 的 任意 一 个 不 能 被 满足 时 ， 对 象 的 编码 转换 操作 惑 会 被 执行 ， 原 本 
保存 在 压缩 列表 里 的 所 有 键 值 对 都 会 被 转移 并 保存 到 字典 里 面 ， 对 象 的 
编码 也 会 从 ziplist 变 为 hashtable。 


i 以 下 代码 展示 了 哈 希 对 象 因为 键 值 对 的 键 长 度 太 大 而 引起 编码 转换 
情况 : 








哈 希 对 象 只 包 合 -个 键 和 值 都 不 超过 64 

个 字 节 的 键 值 对 

redis> HSET book name "Mastering C++ in 21 days" 
(integer) 1 

redis> OBJECT ENCODING book 

dS 


向 叭 项 对 象 尖 加 一 个 新 的 键入 对 ， 键 的 长 度 为 66 


可 
redis> HSET book long_long_long_long_long_long_long_long_long_long_long_description "content" 
(integer) 1 


# 
编码 已 改变 

redis> OBJECT ENCODING book 
"hashtable" 





除了 键 的 长 度 太 大 会 引起 编码 转换 之 外 ， 值 的 长 度 太 大 也 会 引起 编 
码 转 换 ， 以 下 代码 展示 了 这 种 情况 的 一 个 示例 : 








# 

哈 希 对 象 只 包含 一 个 键 和 值 都 不 超过 64 

个 字 节 的 键 值 对 

redis> HSET blah greeting "hello world" 
(integer) 1 

redis> OBJECT ENCODING blah 

sb 


和 -个 新 的 键 值 对 ， 值 的 长 度 为 68 


Fedisg HSET blah story "many string ... many string ... many string ... many string ... many" 
(rnteger) 3 


编码 已 改变 
redis> OBJECT ENCODING blah 
"hashtable" 











最 后 ， 以 下 代码 展示 了 蛤 厦 对 象 因 为 包含 的 键 值 对 数量 过 多 而 引起 
编码 转换 的 情况 : 





# 

创建 一 个 包含 512 

个 键 值 对 的 哈 希 对 象 

redis> EVAL "for i=1, S512 do redis.call('HSET', KEYS[1], i, i)end" 1 "numbers" 
(nil) 

redis> HLEN numbers 

(integer) 512 

redis> ECT ENCODING numbers 

pS 


大 对 名 -个 新 的 键 值 对 ， 使 得 键 值 对 的 数量 变 成 513 


redis> HMSET numbers "key" "value" 


改变 
redis> OBJECT ENCODING numbers 
"hashtable" 





8.4.2 ” 哈 希 命令 的 实现 


因为 哈 希 键 的 值 为 哈 希 对 象 ， 所 以 用 于 哈 希 键 的 所 有 命令 都 是 针对 
哈 希 对 象 来 构建 的 ， 表 8-9 列 出 了 其 中 一 部 分 哈 希 键 命令 ， 以 及 这 些 合 
令 在 不 同 编码 的 哈 希 对 象 下 的 实现 方法 。 





表 8-9 ” 哈 希 命令 的 实现 


HSET 


HGET 


HEXISTS 


HDEL 


HLEN 


HGEMLL 


首先 调用 ziplistPush 函数 ， 将 键 推 人 到 压缩 列表 
的 表 尾 ， 然 后 再 次 调用 ziplistPush 函数 ， 将 值 推 
到 压缩 列表 的 表 尾 


首先 调用 ziplistFinad 图 数 ， 在 压缩 列表 中 查找 指 
定 键 所 对 应 的 节点 ， 然 后 调用 ziplistNext 函数 ， 将 
指针 移动 到 键 节点 旁边 的 值 节点 ， 最 后 返回 值 节点 


调用 ziplistFind 图 数 ， 在 压缩 列表 中 查找 指定 键 
所 对 应 的 节点 ， 如 果 找到 的 话说 明 键 值 对 存在 ， 没 找到 的 
话 就 说 明 键 值 对 不 存在 


调用 ziplistFinad 晃 数 ， 在 压缩 列表 中 查找 指定 刍 
所 对 应 的 节点 ， 然 后 将 相应 的 键 节点 、 以 及 键 节点 旁边 的 
值 节点 都 删除 掉 


调用 ziplistIen 殉 数 ， 取 得 压 纪 列表 包含 节点 的 
数量 ， 将 这 个 数量 除 以 2， 得 出 的 结果 就 是 达 列表 保 丰 
的 银 人 对 的 数量 


道 历 整个 压缩 列表 ， 用 ziplistGet 函数 返回 所 有 键 
和 值 (都 是 节点 ) 





ziplist 编码 实现 方法 hashtable 编码 的 实现 方法 


调用 dictAda 隐 数 ， 将 新 节点 添 吉 
到 字典 里 面 


洞 用 dictFind 图 数 ， 在 字典 中 查找 
给 定 键 ， 然 后 调用 dictGetVal 图 数 ， 
返回 该 健 所 对 应 的 值 


调用 dictFind 函数 ， 在 字典 中 查 
找 给 定 键 ， 如 果 找 到 的 话说 明 键 值 对 存 
在 ， 没 找到 的 话 就 说 明 刍 值 对 不 存在 


调用 dictDelete 函数 ， 将 指定 键 
所 对 应 的 键 值 对 从 字典 中 删除 撞 


调用 dictSize 函数 ， 返 回 字典 包含 
的 键 什 对 数量 ， 这 个 数量 就 是 险 希 对 象 
包含 的 键 值 对 数量 

这 历 整个 字典 ， 用 dictGetkey 肖 


数 返回 字典 的 键 ， 用 dictGetVal 也 
数 返回 字典 的 值 


8.5 ”集合 对 象 
集合 对 象 的 编码 可 以 是 intset 或 者 hashtable。 


intset 编 码 的 集合 对 象 使 用 整数 集合 作为 底层 实现 ， 集 合 对 象 包含 的 
所 有 元 系 部 侯 保 存在 整数 集合 里 面 。 


举 个 例子 ， 以 下 代码 将 创建 一 个 如 图 8-12 所 示 的 intset 编 码 集 合 对 








男 一 方面 ，hashtable 编 码 的 集合 对 象 使 用 字典 作为 底层 实现 ， 字 典 
的 每 个 键 都 是 一 个 字符 串 对 象 ， 每 个 字符 串 对 象 包含 了 一 个 集合 元 素 ， 
而 字典 的 值 则 全 部 被 设置 为 NULL。 


人 
对 象 : 











(integer)3 


redisObject 
type 
REDIS SET 
me Tr pegs 
REDIS ENCODING INTSET length 
- 


图 8-12 ”intset 编 码 的 numbers 和 集合 对 象 














encoding 
INTSET ENC INT16 





redisObject 让 志和 


type 
REDIS SET 


StringObject NULL 
"cherry" 


encoding ” 、 
StringObject 
REDIS ENCODING HT I NULL 
= = apple 
SEE 


图 8-13 ”hashtable 编 码 的 fruits 集 合 对 象 
8.5.1 编码 的 转换 
当 集 合 对 象 可 以 同时 满足 以 下 两 个 条 件 时 ， 对 象 使 用 intset 编 码 : 
.集合 对 象 保存 的 所 有 元 素 都 是 整数 值 ; 
集合 对 象 保存 的 元 系数 量 不 超过 512 个 。 
不 能 满足 这 两 个 条 件 的 集合 对 象 需要 使 用 hashtable 编 码 。 














第 二 个 条 件 的 上 限 值 是 可 以 修改 的 ， 具 体 请 看 配置 文件 中 关于 set- 
max-intset-entries 选 项 的 说 明 。 


对 于 使 用 intset 编 码 的 集合 对 象 来 说 ， 当 使 用 intset 编 码 所 需 的 两 个 
条 件 的 任意 一 个 不 能 被 满足 时 ， 束 会 执行 对 象 的 编码 转换 操作 ， 原 本 保 
存在 整数 集合 中 的 所 有 元 素 都 会 被 转移 并 保存 到 字典 里 面 ， 并 且 对 象 的 
编码 也 会 从 intset 变 为 hashtable。 


举 个 例子 ， 以 下 代码 创建 了 一 个 只 包含 整数 元 素 的 集合 对 象 ， 该 对 
象 的 编码 为 intset: 








S> Soap numbers 1 3 5 


(integer) 3 
es Se 0BJECT ENCODING numbers 
et" 





不 过 ， 只 要 我 们 向 这 个 只 包含 整数 元 素 的 集合 对 象 添加 一 个 字符 串 
元 素 ， 集 合 对 象 有 的 编码 转移 操作 就 会 被 执行 : 





redis> SADD numbers "seven" 
(integer) 1 

redis> OBJECT ENCODING numbers 
"hashtable" 





除 此 之 外 ， 如 采 我 们 创建 一 个 包含 512 个 整数 元 素 的 集合 对 象 ， 那 
么 对 象 的 编码 应 该 会 是 intset: 





redis> EVAL "for i=1, 512 do redis.call('SADD', KEYS[1], i) end" 1 integers 
(nil) 

redis> SCARD integers 

(integer) 512 

redis> OBJECT ENCODING integers 

"ntact” 





但 是 ， 只 要 我 们 再 癌 集 合 添 加 一 个 新 的 整数 元 素 ， 使 得 这 个 集合 的 
元 素数 量变 成 513， 那么 对 象 的 编码 转换 操作 就 会 被 执行 : 





redi S> SADD integers 10086 


) 513 
redis> OBJECT ENCODING integers 
"hashtable" 





8.5.2 ”集合 命令 的 实现 

因为 集合 键 的 值 为 集合 对 象 ， 所 以 用 于 集合 键 的 所 有 命令 都 是 针对 
集合 对 象 来 构建 的 ， 表 8-10 列 出 了 其 中 一 部 分 集合 键 命令 ， 以 及 这 些 命 
令 在 不 同 编码 的 集合 对 象 下 的 实现 方法 。 


表 8-10 ”集合 命令 的 实现 方法 


SCARD 


SISMEMBER 


SMEMBERS 


SRANDMEMBER 


SpOP 


SREM 


intset 编码 的 实现 方法 


调用 intsetRhdd 图 数 ， 将 所 有 新 元 素 汪 
加 到 整数 集合 里 面 






intset 编码 的 实现 方法 


调用 intsetLen 图 数 ， 返 回 整数 集合 所 
包含 的 元 素数 量 ， 这 个 数量 就 是 集合 对 象 所 
包含 的 元 素数 量 

调用 intsetFind 函数 ， 在 整数 集合 中 
查找 给 定 的 元 素 ， 如 果 找 到 了 说 明 元 素 存 在 
于 集合 ， 没 找到 则 涪 明 元 到 不 存在 于 集合 

这 历 整 个 整数 集合 ,使 用 intsetGet 区 
数 返回 集合 元 素 

调用 intsetRandom 图 数 ， 从 整数 集合 
中 随机 返回 一 个 元 素 

调用 intsetRandom 图 数 ， 从 整数 集合 
中 随机 取出 一 个 元 素 ， 在 将 这 个 随机 元 素 返 
回 给 客户 端 之 后 ， 调 用 intsetRenove 隐 
数 ， 将 随机 元 隶 从 整数 集合 中 删除 看 


调用 intsetRemove 图 数 ， 从 整数 集合 
中 删除 所 有 给 定 的 元 素 





hashtable 编码 的 实现 方法 


油 用 dictadd， 以 新 元 素 为 键 ，NULL 为 
值 ， 将 健 值 对 添加 到 字典 里 面 
( 续 ) 
hashtable 编码 的 实现 方法 
调用 dictsize 图 数 ， 返 加 字典 所 包含 的 
健 值 对 数量 ， 这 个 数量 就 是 集合 对 象 所 包含 
的 元 素数 量 
调用 dictFind 函数 ， 在 字典 的 键 中 查找 
给 定 的 元 素 ， 如 果 找到 了 说 明 元 素 存在 于 集 
合 ， 没 找到 则 说 明 元 素 不 存在 于 集合 
明 历 束 个 字典 ， 使 用 dictGetKey 图 数 返 
回 字典 的 键 作为 集合 元 素 
调用 dictGetRandomKey 困 数 ， 从 字典 
中 随机 返回 一 个 字典 键 
调用 dictGetRandomkey 图 数 ， 从 字典 中 
随机 取出 一 个 字典 键 ， 在 将 这 个 随机 字典 键 的 
值 区 回 给 客户 端 之 后 ， 调 用 dictDelete 图 数 ， 
从 字典 中 删除 随机 字典 键 所 对 应 的 刍 值 对 


油 用 dictDelete 函数 ， 从 字典 中 删除 所 
有 刍 为 给 定 元 素 的 刍 值 对 


8.6 ”有 序 集合 对 象 

有 序 集合 的 编码 可 以 是 ziplist 或 者 skiplist。 

ziplist 编 码 的 压缩 列表 对 象 使 用 压缩 列表 作为 底层 实现 ， 每 个 集合 
元 素 使 用 两 个 紧 换 在 一 起 的 压缩 列表 节点 来 保存 ， 第 一 个 节点 保存 元 素 
的 成 员 (member) ， 而 第 二 个 元 素 则 保存 元 素 的 分 值 〈score) 。 


压缩 列表 内 的 集合 元 系 按 分 值 从 小 到 大 进行 排序 ， 分 值 较 小 的 元 妹 
0 而 分 值 较 大 的 元 素 则 被 放置 在 靠近 表 尾 的 方 








举 个 例子 ， 如 果 我 们 执行 以 下 ZADD 命 令 ， 那 么 服务 器 将 创建 一 个 
有 序 集合 对 象 作 为 price 键 的 值 : 


redis> ZADD price 8.5 apple 5.0 banana 6.9 cherry 
(integer) 3 





如 果 price 键 的 值 对 象 使 用 的 是 ziplist 编 码 ， 那 么 这 个 值 对 象 将 会 是 
图 8-14 所 示 的 样子 ， 而 对 象 所 使 用 的 压缩 列表 则 会 是 8-15 所 示 的 样子 。 









redisObject 


type 
REDIS ZSET 


encoding 
REDIS ENCODING ZIPLIST 


4 






压缩 列表 


图 8-14 ”ziplist 编 码 的 有 序 集合 对 象 


skiplist 编 码 的 有 序 集合 对 象 使 用 zset 结 构 作 为 底层 实现 ， 一 个 zset 结 
构 同 时 包含 一 个 字典 和 一 个 跳跃 表 : 





typedef struct zset { 
ES 
dict *dict: 
} zset; 


分 他 少 的 元 素 分 值 排 第 二 的 元 素 。。 分 值 最大 的 元 





Er Cr Ee er BO EH GO RE 


图 8-15 ”有 序 集合 元 素 在 压缩 列表 中 按 分 值 从 小 到 大 排列 
zset 结 构 中 的 zs 路 跃 表 按 分 值 从 小 到 大 保存 了 所 有 集合 元 素 ， 每 个 





跳跃 表 节 点 都 保存 了 一 个 集合 元 素 : 跳跃 表 节 点 的 object 属 性 保存 了 元 
素 的 成 员 ， 而 跳跃 表 节 点 的 score 属 性 则 保存 了 元 素 的 分 值 。 通 过 这 个 跳 
跃 表 ， 程 序 可 以 对 有 序 集合 进行 范围 型 操作 ， 比 如 ZRANK、ZRANGE 
等 命令 就 是 基于 跳跃 表 API 来 实现 的 。 


除 此 之 外 ，zset 结 构 中 的 dict 字 — 典 为 有 序 集合 创建 了 一 个 从 成 员 到 分 
值 的 映射 ， 字 典 中 的 每 个 键 值 对 都 保存 了 一 个 集合 元 素 : 字典 的 键 保 存 
了 元 系 的 成 员 ， 而 字典 的 值 则 保存 了 元 素 的 分 值 。 通 过 这 个 字典 ， 程 序 
可 以 用 O (1) 复杂 度 查 找 给 定 成 员 的 分 值 ，ZSCORE 命 令 就 是 根据 这 一 
而 很 多 其 他 有 序 集合 命令 都 在 实现 的 内 部 用 到 了 这 一 特 























有 序 集合 每 个 元 素 的 成 员 都 是 一 个 字符 串 对 象 ， 而 每 个 元 素 的 分 值 
都 是 一 个 double 类 型 的 浮 点 数 。 值 得 一 提 的 是 ， 虽 然 zset 结 构 同 时 使 用 
跳跃 表 和 字典 来 保存 有 序 集合 元 系 ， 但 这 两 种 数据 结构 都 会 通过 指针 来 
共享 相同 元 素 的 成 员 和 分 值 ， 所 以 同时 使 用 跳跃 表 和 字典 来 保存 集合 元 
素 不 会 产生 任何 重复 成 员 或 者 分 值 ， 也 不 会 因此 而 浪费 额外 的 内 存 。 

















为 什么 有 序 集合 需要 同时 使 用 跳跃 表 和 字典 来 实现 ? 


在 理论 上 ， 有 序 集合 可 以 单独 使 用 字典 或 者 跳跃 表 的 其 中 一 种 
数据 结构 来 实现 ， 但 无 论 单独 使 用 字典 还 是 跳跃 表 ， 在 性 能 上 对 比 
起 同时 使 用 字典 和 跳跃 表 都 会 有 所 降低 。 举 个 例子 ， 如 果 我 们 只 使 
用 字典 来 实现 有 序 集合 ， 那 么 虽然 以 DO 〈1) 复杂 上 度 碍 找 成 员 的 分 








值 这 一 特性 会 被 保留 ， 但 是 ， 因 为 字典 以 无 序 的 方式 来 保存 集合 元 
素 ， 所 以 每 次 在 执行 冰 围 型 操作 一 一 比如 ZRANK、ZRANGE 等 合 
令 时 ， 程 序 都 需要 对 字典 保存 的 所 有 元 素 进 行 排序 ， 完 成 这 种 排序 
需要 至 少 O (NlogN) 时 间 复 杂 度 ， 以 及 额外 的 O CN) 内 存 空 间 

《因为 要 创建 一 个 数组 来 保存 排序 后 的 元 素 ) 。 


另 一 方面 ， 如 果 我 们 只 使 用 跳跃 表 来 实现 有 序 集合 ， 那 么 跳跃 
表 执 行 范 转型 操作 的 所 有 优点 都 会 被 保留 ， 但 因为 没有 了 字典 ， 所 
以 根据 成 员 碍 找 分 值 这 一 操作 的 复杂 上 度 将 从 O《〈1) 上 升 为 
O (logN) 。 因 为 以 上 原因 ， 为 了 让 有 序 集合 的 查找 和 范围 型 操作 
都 尽 可 能 快 地 执行 ，Redis 选 择 了 同时 使 用 字典 和 跳跃 表 两 种 数据 
结构 来 实现 有 序 集合 。 

















举 个 例子 ， 如 果 前 面 price 键 创建 的 不 是 ziplist 编 码 的 有 序 集合 对 
象 ， 而 是 skiplist 编 码 的 有 序 集合 对 象 ， 那 么 这 个 有 序 集 合 对 象 将 会 是 图 
8-16 所 示 的 样子 ， 而 对 象 所 使 用 的 zset 结 构 将 会 是 图 8-17 所 示 的 样子 。 


redisObject 


type 
REDIS ZSET 


encoding 
REDIS ENCODING SKIPLIST 










图 8-16 ”skiplist 编 码 的 有 序 集合 对 象 


Stringobject 5 1 
dictht "banana" 
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132 NULL 
zs1 NULL 
ee 
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Stringobject 





集合 元 素 同 时 被 保存 在 字典 和 跳跃 表 中 


图 8-17 有 


可 


为 了 展示 方便 ， 图 8-17 在 字典 和 跳跃 表 中 重复 展示 了 各 个 元 系 的 成 
员 和 分 值 ， 但 在 实际 中 ， 字 典 和 跳跃 表 会 共享 元 素 的 成 员 和 分 值 ， 所 以 
并 不 会 造成 任何 数据 重复 ， 也 不 会 因此 而 浪费 任何 内 存 。 








8.6.1 ”编码 的 转换 
当 有 序 集合 对 象 可 以 同时 满足 以 下 两 个 条 件 时 ， 对 象 使 用 ziplist 编 





但: 








“有 序 集合 保存 的 元 素数 量 小 于 128 个 ; 
“有 序 集合 保存 的 所 有 元 素 成 员 的 长 度 都 小 于 64 子 节 ; 
不 能 满足 以 上 两 个 条 件 的 有 序 集合 对 象 将 使 用 skiplist 编 码 。 


| | 
v\ 

| es 
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SA i 
区 
、_/ 注意 











以 上 两 个 条 件 的 上 限 值 是 可 以 修改 的 ， 具 体 请 看 配置 文件 中 关于 
Zzset-max-ziplist-entries 选 项 和 zset-max-ziplist-value 选 项 的 说 明 。 


对 于 使 用 ziplist 编 码 的 有 序 集合 对 象 来 说 ， 当 使 用 ziplist 编 码 所 需 的 
两 个 条 件 中 的 任意 一 个 不 能 被 满足 时 ， 就 会 执行 对 象 的 编码 转换 操作 ， 
原本 保存 在 压缩 列表 里 的 所 有 集合 元 素 都 会 被 转移 并 保存 到 zset 结 构 里 
面 ， 对 象 的 编码 也 会 从 ziplist 变 为 skiplist。 











ee 以 下 代码 展示 了 有 序 集合 对 象 因 为 包含 了 过 多 元 素 而 引发 编码 转换 
情况: 


# 

对 象 包含 了 128 

个 元 素 

redis> EVAL "for i=1, 128 do redis.call('ZADD', KEYS[1], i, i) end" 1 numbers 
redis> ZCARD numbers 

(integer) 128 

redis> OBJECT ENCODING numbers 
ziplist" 

再 添加 一 个 新 元 素 

redis> ZADD numbers 3.14 pi 
(integer) 1 


# 
对 象 包含 的 元 素数 量变 为 129 


redis> ZCARD numbers 
(integer) 129 


# 
编码 已 改变 

redis> OBJECT ENCODING numbers 
"skiplist" 





以 下 代码 则 展示 了 有 序 集合 对 象 因为 元 素 的 成 员 过 长 而 引发 编码 转 


换 的 情况 : 





# 

向 有 序 集合 添加 一 个 成 员 只 有 三 字 节 长 的 元 素 
redis> ZADD blah 工 .9 www 
(integer) 1 

redis> OBJECT ENCODING blah 
"ziplist" 

# 


向 有 序 集合 添加 一 个 成 员 为 66 
空 症 长 的 工 雪 





字 贡 长 的 元 素 

redis> ZADD blah 2.9 00000000000000000000000000000000000000000000000000000000000 
(integer) 1 

# 


编码 已 改变 
redis> OBJECT ENCODING blah 
"skiplist" 





8.6.2 ”有 序 集合 命令 的 实现 

因为 有 序 集合 键 的 值 为 哈 希 对 象 ， 所 以 用 于 有 序 集合 键 的 所 有 命令 
都 是 针对 哈 希 对 象 来 构建 的 ， 表 8-11 列 出 了 其 中 一 部 分 有 序 集合 键 命 
令 ， 以 及 这 些 命令 在 不 同 编码 的 哈 希 对 象 下 的 实现 方法 。 


表 8-11 有 序 集合 命令 的 实现 方法 


ZCARD 


ZCOUNT 


ZRANGE 


ZREVRANGE 


ZRANK 


ziplist 编码 的 实现 方法 


调用 ziplistInsert 图 数 ， 将 成 员 和 分 
值 作为 两 个 节点 分 别 插入 到 压缩 列表 


调用 ziplistLen 函数 ， 获 得 压缩 列表 包 
含 节点 的 数量 ， 将 这 个 数量 除 以 2 得 出 集合 元 
素 的 数量 


这 历 编列 表 ， 统 计 分 信 在 给 定 朱 内 的 节 
上 的 


从 表 头 向 表 尾 遍历 压缩 列表 ， 返 回 给 定 索引 
池 围 内 的 所 有 元 素 
从 表 尾 问 表 头 遍历 压缩 列表 ， 返 回 给 年 索引 
范围 内 的 所 有 元 素 


从 表 头 癌 表 尾 遍历 压缩 列表 ， 查 找 给 定 的 成 
员 ， 沿 途 记录 经 过 书 点 的 数量 ， 当 找到 给 定 成 
员 之 后 ， 途 经 节点 的 数量 就 是 该 成 员 所 对 应 元 
素 的 排名 





2S8t 编码 的 实现 方法 
先 油 用 zslInsert 函数 ， 将 新 元 素 添加 
到 跳跃 表 ， 然 后 调用 dicthdad 函数 ， 将 新 元 
素 关联 到 字典 


访问 跳跃 表 数 据 结构 的 length 属性 ， 直 
接 返回 集合 元 素 的 数量 


遍历 跳跃 表 ， 统 计 分 人 在 给 定 范围 内 的 节 
点 的 数量 

从 表 尖 向 表 尾 这 历 跳 中 表 ， 返 回 给 定 索 引 
池 围 内 的 所 有 元 素 

从 表 尾 问 表 头 遍历 跳跃 表 ， 返 回 给 定 索引 
范围 内 的 所 有 元 素 


从 表 头 向 表 尾 遍历 跳跃 表 ， 查 找 给 定 的 成 
员 ， 沿 途 记 录 经 过 节点 的 数量 ， 当 找到 给 定 
成 员 之 后 ， 途 经 节点 的 数量 就 是 该 成 员 所 对 
应 元 素 的 排名 


从 表 尾 向 表 类 遍历 压缩 列表 ， 查 找 给 定 的 成 | 。 从 表 尾 向 表 头 这 历 跳跃 表 ， 碍 找 给 定 的 成 
员 ， 灌 途 记 录 经 过 节点 的 数量 ， 当 找到 给 定 成 | 员 ， 沿 途 记录 经 过 节点 的 数量 ， 当 找到 给 定 


EAE | 之后， 人 如 节点 的 数量 是 只 所 对 应 元 | 成员 之 后 ， 迄 经 蔬 点 的 数量 就是 该 成 员 所 和 
未 的 提名 应 元 的 排名 
这 历 中 有 表 ， 贡 除 所 有 包含 了 给 定 成 的 
放 押 不 第 列 表 ， 册 所 有 包 人 给 成 员 的 Wl 
i 关押 丘 表册 了 所 有 包 人 和 成 员 的 节 | 表 上。 并 在 全 册 中 佣 队 被 出 除 元 


所， 以 及 被 删除 成 员 节点 劳 边 的 分 值 节点 


成 员 和 分 值 的 关联 


遇 爵 压缩 列表 ， 查 找 包 含 了 给 定 成 员 的 节 
Z3CORE 扩 ， 然 后 取出 成 员 节点 尖 边 的 分 什 节 点 保存 的 | 直接 从 字典 中 取出 给 定 成 员 的 分 信 
元 素 分 人 





8.7 ”类 型 检查 与 命令 多 态 
Redis 中 用 于 操作 键 的 命令 基本 上 可 以 分 为 两 种 类 型 。 


其 中 一 命令 可 以 对 任何 类 型 的 键 执行 ， 比 如 说 DEL 命 令 、 
EXPIRE 命 邻 令 、RENAME 命 令 、TYPE 命 令 、 ee 


举 个 例子 ， 以 下 代码 就 展示 了 使 用 DEL 命令 来 删除 三 种 不 同类 型 的 








# 

字符 串 键 

redis> SET msg "hello" 
OK 


# 

列表 键 

redis> RPUSH numbers 1 2 3 
Cotegen) a 


集合 全 
redis> SADD fruits apple banana cherry 
ke 


redis> DEL numbers 
(integer) 

redis> DEL fruits 
(integer) 1 





而 另 一 种 命令 只 能 对 特定 类 型 的 键 执行 ， 比 如 说 : 
.SET、GET、APPEND、STRLEN 等 命令 只 能 对 字符 串 键 执行 ; 
今 只 外 


.HDFL、HSET、HGET、HLEN 等 命令 只 能 对 哈 希 键 执行 ; 





.RPUSH、LPOP、LINSERT、LLEN 等 命令 只 能 对 列表 键 执行 ; 
.SADD、SPOP、SINTER、SCARD 等 命令 只 能 对 集合 键 执行 ; 


‘ZADD、 ZCARD、ZRANK、 ZSCORE 等 命令 只 能 对 有 序 集合 键 执 


人 ; 


举 个 例子 ， 我 们 可 以 用 SET 命令 创建 一 个 字符 串 键 ， 然 后 用 GET 命 
令 和 APPEND 命 令 操作 这 个 键 ， ne 从 如 久 执 但 
有 列表 键 才 能 执行 的 LLEN 命 令 ， 那 么 Redis 将 问 我 们 返 类 型 错 


诺 : 











8.7.1 ”类 型 检查 的 实现 


从 上 面 发 生 类 型 错误 的 代码 示例 可 以 看 出 ， 为 了 确保 只 有 指定 类 型 
的 键 可 以 执行 革 些 特定 的 命令 ， 在 执行 一 个 类 型 特定 的 命令 之 前 ， 
Redis 会 先 检查 输入 键 的 类 型 是 否 正 确 ， 然 后 再 决定 是 否 执行 给 定 的 全 
令 。 


类 型 特定 命令 所 进行 的 类 型 检查 是 通过 redisObject 结 构 的 type 属 性 
来 实现 的 : 


:在 执行 一 个 类 型 特定 命令 之 前 ， 服 务 器 会 先 检 查 输入 数据 库 键 的 
值 对 象 是 否 为 执行 命令 所 需 的 类 型 ， 如 果 是 的 话 ， 服 务 器 就 对 键 执 行 指 
定 的 命令 ; 

否则， 服务 器 将 拒绝 执行 命令 ， 并 回 客 户 端 返回 一 个 类 型 错误 。 

举 个 例子 ， 对 于 LLEN 命 令 来 说 : 

:在 执行 LLEN 命 令 之 前 ， 服 务 器 会 先 检 查 输入 数据 库 键 的 值 对 象 是 
否 为 列表 类 型 ， 也 即 是 ， 检 碍 值 对 象 redisObject 结 构 type 属 性 的 值 是 否 
为 REDIS_LIST， 如 果 是 的 话 ， 服 务 器 就 对 键 执 行 LLEN 命 令 ; 


否则 的 话 ， 服 务 器 就 拒绝 执行 命令 并 同 客 户 问 返 回 一 个 类 型 错 
误 ; 图 8-18 展 示 了 这 一 类 型 检查 过 程 。 


客户 端 发 送 LLEN<key> 命 今 


服务 器 检查 
键 key 的 值 对 象 
是 否 列表 对 象 


对 键 key 执 行 LLEN 命 令 | | 返回 一 个 类 型 错误 


图 8-18 LLEN 命 令 执行 时 的 类 型 检查 过 程 
其 他 类 型 特定 命令 的 类 型 检查 过 程 也 和 这 里 展示 的 LLEN 命 令 的 类 
型 检查 过 程 类 似 。 
8.7.2 ”多 态 命令 的 实现 
Redis 除 了 会 根据 值 对 象 的 类 型 来 判断 键 是 否 能 够 执行 指定 命令 之 
外 ， 还 会 根据 值 对 象 的 编码 方式 ， 选 择 正 确 的 命令 实现 代码 来 执行 命 


Xo 













下 





举 个 例子 ， 在 前 面 介 绍 列表 对 象 的 编码 时 我 们 说 过 ， 列 表 对 象 有 
ziplist 和 1linkedlist 两 种 编码 可 用 ， 其 中 前 者 使 用 压缩 列表 API 来 实现 列表 
命令 ， 而 后 者 则 使 用 双 端 链表 API 来 实现 列表 命令 。 

现在 ， 考 虑 这 样 一 个 情况 ， 如 果 我 们 对 一 个 键 执 行 LLEN 命 令 ， 那 
么 服务 器 除了 要 确保 执行 命令 的 是 列表 键 之 外 ， 还 需要 根据 键 的 值 对 象 
所 使 用 的 编码 来 选择 正确 的 LLEN 命 令 实 现 : 


-如果 列 表 对 象 的 编码 为 ziplist， 那 么 说 明 列 表 对 象 的 实现 为 压缩 列 
表 ， 程 序 将 使 用 ziplistLen 函 数 来 返回 列表 的 长 度 ; 


如果 列 表 对 象 的 编码 为 linkedlist， 那 么 说 明 列 表 对 象 的 实现 为 双 端 
链表 ， 程 序 将 使 用 listLengh 函 数 来 返回 双 问 链表 的 长 度 ; 


借用 面 癌 对 象 方面 的 术语 来 次 ， 我 们 可 以 认为 LLEN 命 令 是 多 态 


(polymorphism) 的 ， 只 要 执行 LLEN 命 令 的 是 列表 键 ， 那 么 无 论 值 对 
象 使 用 的 是 ziplist 编 码 还 是 linkedlist 编 码 ， 命 令 都 可 以 正常 执行 。 


图 8-19 展 示 了 LLEN 命 令 从 类 型 检查 到 根据 编码 选择 实现 函数 的 整 
个 执行 过 程 ， 其 他 类 型 特定 命令 的 执行 过 程 也 是 类 似 的 。 

实际 上 ， 我 们 可 以 将 DEL、EXPIRE、TYPE 等 命令 也 称 为 多 态 命 
令 ， 因 为 无 论 输 入 的 键 是 什么 类 型 ， 这 些 命令 都 可 以 正确 地 执行 。 


DEL、EXPIRE 等 命令 和 LLEN 等 命令 的 区 别 在 于 ， 前 者 是 基于 类 型 
的 多 态 一 一 一 个 命令 可 以 同时 用 于 处 理 多 种 不 同类 型 的 键 ， 而 后 者 是 基 
于 编码 的 多 态 一 一 一 个 命令 可 以 同时 用 于 处 理 多 种 不 同 编码 。 















客户 端 发 送 LLEN<key> 命 令 









服务 器 检查 匀 
key 的 值 对 旬 
是 否 列表 对 象 






对 象 的 编码 是 
ziplist 还 是 linkedlist? 


ziplist linkedlist 
编码 编码 


调用 ziplistLen 图 数 调用 listLength 函 数 





返回 一 个 类 型 错误 










返回 压缩 列表 的 长 度 退回 双 端 链表 的 长 度 
图 8-19 LLEN 命 令 的 执行 过 程 


8.8 内 存 回收 


因为 C 语 言 并 不 具备 自动 内 存 回 收 功 能 ， 所 以 Redis 在 自己 的 对 象 系 
统 中 构建 了 一 个 引用 计数 (reference ”counting) 技术 实现 的 内 存 回收 机 
制 ， 通 过 这 一 机 制 ， 程 序 可 以 通过 跟踪 对 象 的 引用 计数 信息 ， 在 适当 的 
时 候 自 动 释 放 对 象 并 进行 内 存 回 收 。 





每 个 对 象 的 引用 计数 信息 由 redisObject 结 构 的 refcount 属 性 记录 : 





typedef struct redisobject { 
Wt 


i 
引用 计数 
int refcount; 
Re 
} robj; 


对 象 的 引用 计数 信息 会 随 着 对 象 的 使 用 状态 而 不 断 变化 : 

-在 创建 一 个 新 对 象 时 ， 引 用 计数 的 值 会 被 初始 化 为 1; 

` 当 对 象 被 一 个 新 程序 使 用 时 ， 它 的 引用 计数 值 会 被 增 一 ; 

` 当 对 和 象 不 再 被 一 个 程序 使 用 时 ， 它 的 引用 计数 值 会 被 减 一 ; 

: 当 对 象 的 引用 计数 值 变 为 0 时 ， 对 象 所 占用 的 内 存 会 被 释放 。 


表 8-12 列 出 了 修改 对 象 引 用 计数 的 API， 这 些 API 分 别 用 于 增加 、 减 
少 、 重 置 对 象 的 引用 计数 。 


表 8-12 ”修改 对 象 引 用 计数 的 API 


浮 数 作用 
incrRefCount 将 对 象 的 引用 计数 值 增 一 
decrRefCount 将 对 象 的 引用 计数 全 减 一 ， 当 对 象 的 引用 计数 值 等 于 0 时， 释放 对 象 
i 将 对 象 的 引用 计数 但 设置 为 0， 但 并 不 释放 对 象 ， 这 个 函数 通常 在 需要 重新 设置 对 象 


对 象 的 整个 生命 周期 可 以 划分 为 创建 对 象 、 操 作对 象 、 释 放 对 象 三 
个 阶段 。 作 为 例子 ， 以 下 代码 展示 了 一 个 字符 串 对 象 从 创建 到 释放 的 整 


个 过 程 : 








// 
创建 一 个 字符 串 对 象 S 
， 对 象 的 引用 计数 为 


robj *s = createStringobject(...) 
// 




















对 象 S 
执行 各 种 操作 ,, ， 
这 


将 对 象 








| 

















S 
和 引用 计数 减 一 ， 使 得 对 象 的 引用 计数 变 为 9 
导致 对 象 S 

















被 释放 
decrRefCount(s) 





其 他 不 同类 型 的 对 象 也 会 经 历 类 似 的 过 程 。 


8.9 对 象 共 享 


除了 用 于 实现 引用 计数 内 存 回 收 机 制 之 外 ， 对 象 的 引用 计数 属性 还 
币 有 对 象 共 译 的 作用 。 举 个 例子 ， 假 设 键 A 创 建 了 一 个 包含 整数 值 100 
的 字符 串 对 象 作为 值 对 象 ， 如 图 8-20 所 示 。 


如 末 这 时 键 B 也 要 创建 一 个 同样 保存 了 整数 值 100 的 字符 串 对 象 作为 
值 对 象 ， 那 么 服务 器 有 以 下 两 种 做 法 : 


1) 为 键 B 新 创建 一 个 包含 整数 值 100 的 字符 串 对 象 ; 

2) 让 键 A 和 和 键 B 共 至 同一 个 字符 串 对 象 ; 

以 上 两 种 方法 很 明显 是 第 二 种 方法 更 市 约 内 存 。 

在 Redis 中 ， 让 多 个 键 共 至 同一 个 值 对 象 需要 执行 以 下 两 个 步 又 : 

1) 将 数据 库 键 的 值 指 针 指 癌 一 个 现 有 的 值 对 象 ; 

2) 将 被 共 孚 的 值 对 象 的 引用 计数 增 一 。 

举 个 例子 ， 图 8-21 就 展示 了 包 合 整数 值 100 的 字符 串 对 象 同时 被 键 A 
和 键 B 共 盏 之 后 的 样子 ， 可 以 看 到 ， 除 了 对 象 的 引用 计数 从 之 前 的 1 变 成 
了 2 之 外 ， 其 他 属性 都 没有 变化 。 共 享 对 象 机 制 对 于 节约 内 存 非 常 有 大 


和 数据 库 中 保存 的 相同 值 对 象 越 多 ， 对 象 共 享 机 制 就 能 节约 越 多 的 内 
子 。 

















图 8-21 ”被 共享 的 字符 串 对 象 


例如 ， 假 设 数 据 库 中 保存 了 整数 值 100 的 键 不 只 有 键 A 和 键 B 两 个 ， 
而 是 有 一 百 个 ， 那 么 服务 器 只 需要 用 一 个 字符 串 对 象 的 内 存 束 可 以 保存 
原本 需要 使 用 一 百 个 字符 串 对 象 的 内 存 才能 保存 的 数据 。 


目前 来 说 ，Redis 会 在 初始 化 服务 器 时 ， 创 建 一 万 个 字符 串 对 象 ， 
这 些 对 象 包含 了 从 0 到 9999 的 所 有 整数 值 ， 当 服务 器 再 要 用 到 值 为 0 到 
0 服务 器 就 会 使 用 这 些 共 享 对 象 ， 而 不 是 新 创建 对 


mn 
| in 
入 | 


SN | 
Pr Vs 
a 六 种 


创建 共享 字符 串 对 象 的 数量 可 以 通过 修改 
redis.h/REDIS_SHARED INTEGERS 常 量 来 修改 。 


举 个 例子 ， 如 果 我 们 创建 一 个 值 为 100 的 键 A， 并 使 用 OBJECT 
人 我 们 会 发 现 值 对 象 的 引 
计数 为 2: 





redis> SET A 100 


redis> OBJECT REFCOUNT A 
(integer) 2 


引用 这 个 值 对 象 的 两 个 程序 分 别 是 持 有 这 个 值 对 象 的 服务 器 程 友 ， 
以 及 共 至 这 个 值 对 象 的 键 A， 如 图 8-22 所 示 。 


如 果 这 时 我 们 再 创建 一 个 值 为 100 的 键 B， 那 么 键 B 也 会 指向 包含 整 
数值 100 的 共享 对 象 ， 使 得 共享 对 象 的 引用 计数 值 变 为 3: 





redis> SET B 100 

OK 

redis> OBJECT REFCOUNT A 
(integer) 3 

redis> OBJECT REFCOUNT B 
(integer) 3 





图 8-23 展 示 了 共享 值 对 象 的 三 个 程序 。 












encoding 
REDIS ENCODING INT 


PET 







refcount 






REDIS ENCODING INT 






ptr 100 


refcount 
3 


图 8-23 ”引用 数 为 3 的 共享 对 象 


另外 ， 这 些 共享 对 象 不 单单 只 有 字符 串 键 可 以 使 用 ， 那 些 在 数据 结 
构 中 租 套 了 字符 串 对 象 的 对 象 (linkedlist 编 码 的 列表 对 象 、hashtable 编 
码 的 哈 希 对 象 、hashtable 编 码 的 集合 对 象 ， 以 及 zset 编 码 的 有 序 集合 对 








象 ) 都 可 以 使 用 这 些 共享 对 象 。 





为 什么 Redis 不 共享 包含 字符 串 的 对 象 ? 


当 服 务 器 考虑 将 一 个 共享 对 象 设置 为 键 的 值 对 象 时 ， 程 序 需 要 
先 检 查 给 定 的 共 胖 对 象 和 键 想 创 建 的 目标 对 象 是 否 完全 相同 ， 只 有 
在 共享 对 象 和 目标 对 象 完 全 相同 的 情况 下 ， 程 序 才 会 将 共 享 对 象 用 
作 键 的 值 对 象 ， 而 一 个 共享 对 象 保存 的 值 越 复 杂 ， 验 证 共享 对 象 和 
人 消耗 的 CPU 时 间 也 会 越 














:如果 共享 对 象 是 保存 整数 值 的 字符 串 对 象 ， 那 么 验证 操作 的 
复杂 度 为 O (1) ; 


.如 果 共 享 对 象 是 保存 字符 串 值 的 字符 串 对 象 ， 那 么 验证 操作 
的 复杂 度 为 O CN) ; 


:如 宁 共 孚 对 象 是 包含 了 多 个 值 〈 或 者 对 象 的 ) 对 象 ， 比 如 列 
表 对 象 或 者 哈 希 对 象 ， 那 么 验证 操作 的 复杂 上 度 将 会 是 O CN ?) 。 


因此 ， 尽 管 共享 更 复杂 的 对 象 可 以 节约 更 多 的 内 存 ， 但 受到 
CPU 时 间 的 限制 ，Redis 只 对 包含 整数 值 的 字符 串 对 象 进行 共享 。 














8.10 ”对象 的 空转 时 长 


除了 前 面 介 绍 过 的 type、encoding、ptr 和 refcount 四 个 属性 之 外 ， 
redisObject 结 构 包 含 的 最 后 一 个 属性 为 Iru 属 性 ， 该 属性 记录 了 对 象 最 后 
一 次 被 命令 程序 访问 的 时 间 : 





typedef struct redisobject { 
3 
unsigned lru:22; 


} robj; 





OBJECT IDLETIME 命 令 可 以 打印 出 给 定 键 的 空转 时 长 ， 这 一 空转 
时 长 就 是 通过 将 当前 时 间 减 去 键 的 值 对 象 的 lru 时 间 计 算得 出 的 : 





redis> SET msg "hello world" 
OK 


# 

等 待 一 小 段 时 间 

redis> OBJECT IDLETIME msg 
(integer) 20 


等 待 一 阵子 

redis> OBJECT IDLETIME msg 
(integer) 180 

# 

访问 msg 

键 的 值 

redis> GET msg 

"hello world" 

# 


键 处 于 活跃 状态 ， 空 转 时 长 为 9 
redis> OBJECT IDLETIME msg 
(integer) 0 


人 
Pa at ] 


S_7 注 意 





OBJECT IDLETIME 命 令 的 实现 是 特殊 的 ， 这 个 命令 在 访问 键 的 值 
对 象 时 ， 不 会 修改 值 对 象 的 Iru 必 性。 


除了 可 以 被 OBJECT IDLETIME 命 令 打 印 出 来 之 外 ， 键 的 空转 时 长 
还 有 另外 一 项 作用 : 如 果 服 务 器 打开 了 maxmemory 选 项 ， 并 且 服 务 器 用 
于 回收 内 存 的 算法 为 volatile-lru 或 者 allkeys-lru， 那 么 当 服 务 器 占用 的 内 
存 数 超过 了 maxmemory 选 项 所 设置 的 上 限 值 时 ， 空 转 时 长 较 高 的 那 部 分 
键 会 优先 被 服务 嚣 释放， 从 而 回收 内 存 。 


配置 文件 的 maxmemory 选 项 和 maxmemory-policy 选 项 的 说 明 介 绍 了 
关于 这 方面 的 更 多 信息 。 


8.11 重点 回顾 

.Redis 数 据 库 中 的 每 个 键 值 对 的 键 和 值 都 是 一 个 对 象 。 

.Redis 共 有 字符 串 、 列 表 、 哈 希 、 集 合 、 有 序 集 合 五 种 类 型 的 对 
象 ， 每 种 类 型 的 对 象 至 少 都 有 两 种 或 以 上 的 编码 方式 ， 不 同 的 编码 可 以 
在 不 同 的 使 用 场景 上 优化 对 象 的 使 用 效率 。 


服务 器 在 执行 条 些 命 令 之 前 ， 会 先 检 查 给 定 键 的 类 型 能 否 执 行 指 
定 的 命令 ， 而 检查 一 个 键 的 类 型 就 是 检查 键 的 值 对 象 的 类 型 。 


-Redis 的 对 象 系统 珊 有 引用 计数 实现 的 内 存 回 收 机 制 ， 当 一 个 对 象 
不 再 被 使 用 时 ， 该 对 象 所 占用 的 内 存 束 会 被 目 动 释放 。 


.Redis 会 共享 值 为 0 到 9999 的 字符 串 对 象 。 


:对象 会 记录 目 己 的 最 后 一 次 被 访问 的 时 间 ， 这 个 时 间 可 以 用 于 计 
算 对 象 的 空转 时 间 。 
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第 9 章 ” ”数据库 


本 章 将 对 Redis 服 务 器 的 数据 库 实现 进行 详细 介绍 ， 说 明 服 务 器 保 
存 数据 库 的 方法 ， 客 户 站 切换 数据 库 的 方法 ， 数 据 库 保存 键 值 对 的 方 
法 ， 以 及 针对 数据 库 的 添加 、 删 除 、 碍 看 、 更 新 操作 的 实现 方法 等 。 除 
此 之 外 ， 本 章 还 会 说 明 服 务 器 保存 键 的 过 期 时 间 的 方法 ， 以 及 服务 器 目 
动 删除 过 期 键 的 方法 。 最 后 ， 本 章 还 会 说 明 Redis 2.8 新 引入 的 数据 库 通 
知 功能 的 实现 方法 。 








9.1 服务 器 中 的 数据 库 
Redis 服 务 器 将 所 有 数据 库 都 保存 在 服务 器 状态 redis.h/redisServer 结 


构 的 db 数组 中 ，db 数 组 的 每 个 项 都 是 一 个 redis.h/redisDb 结 构 ， 每 个 
redisDb 结 构 代 表 一 个 数据 库 : 


struct redisServer { 
i 





a 
一 个 数组 ， 保 存 着 服务 器 中 的 所 有 数据 库 
edisDb *db; 


}; 








在 初始 化 服务 器 时 ， 程 序 会 根据 服务 器 状态 的 dbnum 属 性 来 决定 应 
该 创建 多 少 个 数据 库 : 





struct redisServer { 
da 


J 
服务 器 的 数据 库 数 量 
int dbnum; 


int dbnum; 


}; 


dbnum 属 性 的 值 由 服务 器 配置 的 database 选 项 决定 ， 默 认 情 况 下 ， 
该 选项 的 值 为 16， 所 以 Redis 服 务 占 默认 会 创建 16 个 数据 库 ， 如 图 9-1 所 
示 


redisServer 


dbnum 
16 









[eaTeaT Taco 


图 9-1 服务 器 数据 库 示 例 


9.2 ”切换 数据 库 


每 个 Redis 客 户 端 都 有 自己 的 目标 数据 库 ， 每 当 客户 端 执行 数据 库 
所 会 人 或 者 数据 库 这 命令 的 时 候 ， 目 标 数据 库 就 会 成 为 这 些 命令 的 操作 
对 家 。 


默认 情况 下 ，Redis 客 户 端的 目标 数据 库 为 0 号 数据 库 ， 但 客户 端 可 
以 通过 执行 SELECT 命令 来 切换 目标 数据 库 。 


以 下 代码 示例 演示 了 客户 并 在 0 写 数 据 库 设置 并 读 取 键 msg， 之 后 切 
换 到 2 号 数据 库 并 执行 类 似 操作 的 过 程 : 





redis> SET msg "hello world" 


redis> SELECT 2 
OK 

redis[2]> GET msg 
(nil 

redis[2]> SET msg"another world" 
OK 

redis[2]> GET msg 

"another world" 





在 服务 器 内 部 ， 客 户 端 状态 redisClient 结 构 的 db 属性 记录 了 客户 端 
当前 的 目标 数据 库 ， 这 个 属性 是 一 个 指 同 redisDb 结 构 的 指针 : 





typedef struct redisClient { 
Ne 











dk 
记录 客户 端 当 前 正在 使 用 的 数据 库 
redisDb *db; 

pd A 

} redisclient; 








redisClient.db 指 针 指 向 redisServer.db 数 组 的 其 中 一 个 元 素 ， 而 被 指 
向 的 元 素 就 是 客户 端的 目标 数据 库 。 


比如 说 ， 如 果 茶 个 客户 端的 目标 数据 库 为 1 写 数据 库 ， 那 么 这 个 客 
户 端 所 对 应 的 客户 器 状态 和 服务 器 状态 之 间 的 天 系 如 图 9-2 所 示 。 


redisServer 







EOI EE EI EE EE 


redisClient 





图 9-2 ”客户 端的 目标 数据 库 为 1 号 数据 库 


如 果 这 时 客户 端 执行 命令 SELECT 2， 将 目标 数据 库 改 为 2 号 数据 
库 ， 那 么 客户 并 状态 和 服务 右 状 态 之 间 的 关系 将 更 新 成 图 9-3。 











dbnum 
16 
redisClient 
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图 9-3 ”客户 站 的 目标 数据 库 为 2 号 数据 库 


通过 修改 redisClient.db 指 针 ， 让 它 指向 服务 器 中 的 不 同 数据 库 ， 从 
而 实现 切换 目标 数据 库 的 功能 这 就 是 SELECT 命令 的 实现 原理 。 








谨慎 处 理 多 数据 库 程 序 


到 目前 为 止 ，Redis 仍 然 没 有 可 以 返回 客户 端 目标 数据 库 的 命 
3 
据 库 : 





redis> SELECT 1 
OK 
redis[1]> SELECT 2 


OK 
redis[2]> 





但 如 果 你 在 其 他 语言 的 客户 端 中 执行 Redis 命 令 ， 并 且 该 客户 
端 没 有 像 redis-ali 那 样 一 下 显示 目标 数据 库 的 号 码 ， 那 么 在 数 次 切 
换 数据 库 之 后 ， 你 很 可 能 会 态 记 自己 当前 正在 使 用 的 是 哪个 数据 
库 。 当 出 现 这 种 情况 时 ， 为 了 避免 对 数据 库 进 行 误 操 作 ， 在 执行 
Redis 命 令 特 别 是 像 FLUSHDB 这 样 的 危险 命令 之 前 ， 最 好 先 执行 一 
个 SELECT 命 仿 ， 显 式 地 转换 到 指定 内 数据 库 ， 然 后 才 执 行列 的 他 


NC 字 











9.3 数据库 键 空 间 


Redis 是 一 个 键 值 对 (key-value pair) 数据 库 服务 器 ， 服 务 器 中 的 每 
个 数据 库 都 由 一 个 redis.hredisDb 结 构 表 示 ， 其 中 ，redisDb 结 构 的 dict 字 
典 保 存 了 数据 库 中 的 所 有 键 值 对 ， 我 们 将 这 个 字典 称 为 键 空 间 (key 


Space) : 





typedef struct redisDb { 
2 


了 7 
数据 库 键 空间 ， 保 存 着 数据 库 中 的 所 有 键 值 对 
dict *dict: 


Pe 
} redisDb; 











键 空间 和 用 户 所 见 的 数据 库 是 直接 对 应 的 : 
` 键 空间 的 键 也 束 是 数据 库 的 键 ， 每 个 键 部 是 一 个 字符 串 对 象 。 


- 键 空 间 的 值 也 就 是 数据 库 的 值 ， 每 个 值 可 以 是 字符 串 对 象 、 列 表 
Ai 





举 个 例子 ， 如 果 我 们 在 空白 的 数据 库 中 执行 以 下 命令 : 





redis> SET message "hello world" 

OK 

redis> RPUSH alphabet "a" "b" "ce" 
(integer)3 

redis> HSET book name "Redis in Action" 


e 
redis> HSET book author "Josiah L. Carlson" 


(integer) 1 
redis> HSET book publisher "Manning" 
(integer) 1 





本 


.alphabet 是 一 个 列表 键 ， 键 的 名 字 是 一 个 包含 字符 串 "alphabet" 的 字 
符 串 对 象 ， 键 的 值 则 是 一 个 包含 三 个 元 素 的 列表 对 象 。 


book 是 一 个 哈 希 表 键 ， 键 的 名 字 是 一 个 包含 字符 串 "book" 的 字符 串 
对 象 ， 键 的 值 则 是 一 个 包 合 三 个 键 值 对 的 哈 硕 表 对 象 。 





”message 是 一 个 字符 串 键 ， 键 的 名 字 是 一 个 包含 字符 串 "message" 的 
字符 串 对 象 ， 键 的 值 则 是 一 个 包含 字符 串 "hello world" 的 字符 串 对 象 。 


ListObject 










Strlngobject 
Strlngob]ect 


和 
"alphabet" 






Stzingobject 
"Redls 1n Action" 





Stringobject 
"message" 





"name'" 














Strlngobject 
"author" 


Stringobject 
"Josiah L, Carlson" 









StringObject 









"publlisher" StringObject 
"Manning" 


StringObject 


"hello world" 
图 9-4 数据 库 键 空间 例子 


因为 数据 库 的 键 空 间 是 一 个 字典 ， 所 以 所 有 针对 数据 库 的 操作 ， 比 
如 添加 一 个 键 值 对 到 数据 库 ， 或 者 从 数据 库 中 删除 一 个 键 值 对 ， 又 或 者 
在 数据 库 中 获取 菏 个 键 值 对 等 ， 实 际 上 都 是 通过 对 键 空 间 字 典 进行 操作 
来 实现 的 ， 以 下 几 个 小 节 将 分 别 介绍 数据 库 的 添加 、 删 除 、 更 新 、 取 值 
等 操作 的 实现 原理 。 


9.3.1 添加 新 键 
添加 一 个 新 键 值 对 到 数据 库 ， 实 际 上 就 古 将 一 个 新 键 值 对 添加 到 键 


空间 字典 里 面 ， 其 中 键 为 字符 串 对 象 ， 而 值 则 为 任意 一 种 类 型 的 Redis 


对 象 。 


举 个 例子 ， 如 果 键 空间 当前 的 状态 如 图 9-4 所 示 ， 那 么 在 执行 以 下 


[2 


后 





rediss -SET date "2013.12:1" 
OK 





键 空间 将 添加 一 个 新 的 键 值 对 ， 这 个 新 键 值 对 的 键 是 一 个 包含 字符 
串 "date" 的 字符 串 对 象 ， 而 键 值 对 的 值 则 是 一 个 包含 字符 
串 "2013.12.1" 的 字符 串 对 象 ， 如 图 9-5 所 示 。 





新 添加 


String0bject 
"alphabet" 


Strlngobject 
"pook" 


Strlngobject 
"message" 


Strlngobject 
datern 


ListObject 





StringObject Stringobject Stting0bject 
"Dh i 由 C Ti 


Stringobject 
Stringobject| |"Redis in Action" 
"name" 
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图 9-5 ”添加 date 键 之 后 的 键 空 间 
9.3.2 ”删除 键 


删除 数据 库 中 的 一 个 键 ， 实 际 上 就 是 在 键 空 间 里 面 删除 键 所 对 应 的 
键 值 对 对 象 。 


举 个 例子 ， 如 来 键 空间 当前 的 状态 如 图 9-4 所 示 ， 那 么 在 执行 以 下 


命令 之 后 : 


redis> DEL book 
(integer) 1 


键 book 以 及 它 的 值 将 从 键 空间 中 被 删除 ， 如 图 9-6 所 示 。 


List0bject 





Stringobject Stringobject Stringobject 
| Wn WoW We 
Stringobject 
"hello world" 


图 9-6 ”删除 book 键 之 后 的 键 空 间 
9.3.3 ”更 新 键 
对 一 个 数据 库 键 进行 更 新 ， 实 际 上 就 是 对 键 空间 里 面 键 所 对 应 的 值 
对 象 进行 更 新 ， 根 据 值 对 象 的 类 型 不 同 ， 更 新 的 具体 方法 也 会 有 所 不 
同 。 


举 个 例子 ， 如 来 键 空间 当前 的 状态 如 图 9-4 所 示 ， 那 么 在 执行 以 下 


命令 之 后 








键 message 的 值 对 象 将 从 之 前 包含 "hello world" 字 符 串 更 新 为 包 
含 "blah blah" 字 符 串 ， 如 图 9-7 所 示 。 


ListObject 
, Stringobject Strlngobject Stringobject 
stringObject 
hy Mal np Me 
"alphabet" 


String0bject HashObject TT 
StringObject 
"book" ee 
StringObject "Redis in Action" 





Stringobject "name" 
"message" 
String0bject String0bject 
"author" "Josiah L, Carlson" 
Stringobject 
"publisher" Strlngobject 


"Manning" 
StringObject 
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图 9-7 ”使 用 SET 命令 更 新 message 键 
再 举 个 例子 ， 如 果 我 们 继续 执行 以 下 命令 : 





redis> HSET book page 320 
(integer) 1 





那么 键 空 间 中 book 键 的 值 对 象 〈 一 个 哈 希 对 象 ) 将 被 更 新 ， 新 的 键 
值 对 page 和 320 会 被 添加 到 值 对 象 里 面 ， 如 图 9-8 所 示 。 
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图 9-8 ”使 用 HSET 更 新 book 键 


9.3.4 ”对 键 取 值 


对 一 个 数据 库 键 进行 取 值 ， 实 际 上 就 是 在 键 空间 中 取出 键 所 对 应 的 
值 对 象 ， 根 据 值 对 象 的 类 型 不 同 ， 有 具体 的 取 值 方法 也 会 有 所 不 同 。 


举 个 例子 ， 如 果 键 空间 当前 的 状态 如 图 9-4 所 示 ， 那 么 当 执 行 以 下 





redis> GET message 
"hello world" 





GET 命 令 将 首先 在 键 空 间 中 查找 键 message， 找 到 键 之 后 接着 取得 
该 键 所 对 应 的 字符 串 对 象 值 ， 之 后 再 返回 值 对 象 所 包含 的 字符 串 "hello 
world"， 取 值 过 程 如 图 9-9 所 示 。 
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图 9-9 ”使 用 GET 命 令 取 值 的 过 程 
再 举 一 个 例子 ， 当 执行 以 下 命令 时 : 





redis> LRANGE alphabet 0 -1 
1)"a" 


2)"b" 
3) "er" 








LRANGE 命 令 将 首先 在 键 空 间 中 得 找 键 alphabet， 找 到 键 之 后 接着 





取得 该 键 所 对 应 的 列表 对 象 值 ， 之 后 再 返回 列表 对 象 中 包含 的 三 个 字符 
串 对 象 的 值 ， 取 值 过 程 如 图 9-10 所 示 。 
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图 9-10 ”使 用 LRANGE 命 令 取 值 的 过 程 


9.3.5 ”其 他 键 空间 操作 
除了 上 面 列 出 的 添加 、 删 除 、 更 新 、 取 值 操 作 之 外 ， 还 有 很 多 针对 






StringObject 
"Manning" 





数据 库 本 号 的 Redis 命 令 ， 也 是 通过 对 键 空间 进行 处 理 来 完成 的 。 


比如 说 ， 用 于 清空 整个 数据 库 的 FLUSHDB 命 令 ， 就 是 通过 删除 键 
空间 中 的 所 有 键 值 对 来 实现 的 。 又 比如 说 ， 用 于 随机 返回 数据 库 中 某 个 
键 的 RANDOMKEY 命 令 ， 就 是 通过 在 键 空间 中 随机 返回 一 个 键 来 实现 
的 。 


另外 ， 用 于 返回 数据 库 键 数量 的 DBSIZE 命 令 ， 就 是 通过 返回 键 空 
间 中 包含 的 键 值 对 的 数量 来 实现 的 。 类 似 的 命令 还 有 EXISTS、 
RENAME、KEYS 等 ， 这 些 命令 都 是 通过 对 键 空间 进行 操作 来 实现 的 。 


9.3.6 ” 读 写 键 空间 时 的 维护 操作 


当 使 用 Redis 命 令 对 数据 库 进行 读 写 时 ， 服 务 占 不 仅 会 对 键 空间 执 
行 指定 的 读 写 操作 ， 还 会 执行 一 些 额 外 的 维护 操作 ， 其 中 包括 : 


在 恋 取 一 个 键 之 后 《〈 读 操作 和 写 操作 都 要 对 键 进行 读 取 ) ， 服 务 
器 会 根据 键 是 售 存 在 来 更 新 服务 器 的 键 空 间 命 中 〈hit) 次 数 或 键 空间 不 
命中 (miss) 次 数 ， 这 两 个 值 可 以 在 INFO stats 命令 的 keyspace_hits 属 性 
和 keyspace_misses 属 性 中 查看 。 


在读 取 一 个 键 之 后 ， 服 务 器 会 更 新 键 的 LRU 〈 最 后 一 次 使 用 ) 时 
间 ， 这 个 值 可 以 用 于 计算 键 的 闲置 时 间 ， 使 用 OBJECT idletime 命 令 可 以 
查看 键 key 的 闲置 时 间 。 


如果 服 务 器 在 读 取 一 个 键 时 发 现 该 键 已 经 过 期 ， 那 么 服务 器 会 移 
删除 这 个 过 期 键 ， 然 后 才 执行 余下 的 其 他 操作 ， 本 章 稍 后 对 过 期 键 的 讨 
论 会 详细 说 明 这 一 扩 。 


如果 有 客户 并 使 用 WATCH 命 令 监 视 了 茶 个 键 ， 那 么 服务 器 在 对 说 
监视 的 键 进 行 修改 之 后 ， 会 将 这 个 键 标 记 为 胜 〈dirty) ， 从 而 让 事务 程 
序 注 意 到 这 个 键 已 经 被 修改 过 ， 第 19 章 会 详细 说 明 这 一 点 。 

服务 需 每 次 修改 一 个 键 之 后 ， 都 会 对 脏 〈dirty) 键 计数 器 的 值 增 
1， 这 个 计数 器 会 触发 服务 器 的 持久 化 以 及 复制 操作 ， 第 10 章 、 第 11 章 
和 第 15 章 都 会 说 到 这 一 点 。 


如果 服 务 器 开局 了 数据 库 通 知 功能 ， 那 么 在 对 键 进 行 修改 之 后 ， 














服务 器 将 按 配 置 发 送 相应 的 数据 库 通 知 ， 本 章 稍 后 讨论 数据 库 通 知 功能 
的 实现 时 会 详细 说 明 这 一 点 。 


9.4 设置 键 的 生存 时 间或 过 期 时 间 


通过 EXPIRE 命 令 或 者 PEXPIRE 命 令 ， 客 户 端 可 以 以 秒 或 者 毫秒 精 
度 为 数据 库 中 的 某 个 键 设置 生存 时 间 (Time To Live，TTL) ， 在 经 过 
指定 的 秒 数 或 者 毫秒 数 之 后 ， 服 务 器 就 会 自动 删除 生存 时 间 为 0 的 键 : 





redis> SET key Value 
OK 


redis> EXPIRE key 5 
(integer) 1 

redis> GET key // 5 
秒 之 内 

value" 

redis> GET key //5 
秒 之 后 





SETEX 命 令 可 以 在 设置 一 个 字符 串 键 的 同时 为 键 设置 过 期 时 间 ， 因 
为 这 个 命令 是 一 个 类 型 限定 的 命令 (只 能 用 于 字符 串 键 ) ， 所 以 本 章 不 
会 对 这 个 命令 进行 介绍 ， 但 SETEX 命 令 设 置 过 期 时 间 的 原理 和 本 章 介 绍 
的 EXPIRE 命 令 设 置 过 期 时 间 的 原理 是 完全 一 样 的 。 

与 EXPIRE 命 令 和 PEXPIRE 命 令 类 似 ， 客 户 端 可 以 通过 EXPIREAT 
命令 或 PEXPIREAT 命 令 ， 以 秒 或 者 宇 秒 精度 给 数据 库 中 的 某 个 键 设置 
过 期 时 间 (expire time) 。 


过 期 时 间 是 一 个 UNIX 时 间 戳 ， 当 键 的 过 期 时 间 来 临时 ， 服 务 器 就 
会 目 动 从 数据 库 中 删除 这 个 键 : 





redis> SET key value 
OK 


redis> EXPIREAT key 1377257300 
(integer) 1 

redis> TIME 

1)"1377257296" 

2)"296543" 

redis> GET key // 1377257300 
之 前 

"value" 

redis> TIME 

1)"1377257303" 

2)"230656" 

redis> GET key // 1377257369 
之 后 

(nil) 


二 一 








TIL 命 令 和 PTTL 命 令 接受 一 个 带 有 生存 时 间或 者 过 期 时 间 的 键 ， 
返回 这 个 键 的 剩余 生存 时 间 ， 也 就 是 ， 返 回 距离 这 个 键 被 服务 器 自动 市 
除 还 有 多 长 时 间 : 





redis> SET key value 
OK 


redis> EXPIRE key 1000 


redis> SET another_key another_value 
OK 


redis> TIME 

1)"1377333978" 

2)"761687 

redis> EXPIREAT another_key 1377333100 





在 上 一 节 我 们 讨论 了 数据 库 的 后 层 实现 ， 以 及 各 种 数据 库 操 作 的 实 
现 原理 ， 但 是 ， 关 于 数据 库 如 何 保存 键 的 生存 时 间 和 过 期 时 间 ， 以 及 服 
务 吉 如 何 目 动 删除 那些 带 有 生存 时 间 和 过 期 时 间 的 键 这 两 个 问题 ， 我 们 
还 没有 讨论 。 


本 节 将 对 服务 器 保存 键 的 生存 时 间 和 过 期 时 间 的 方法 进行 介绍 ， 并 
在 下 一 节 介绍 服务 器 自动 删除 过 期 键 的 方法 。 


9.4.1 设置 过 期 时 间 


Redis 有 四 个 不 同 的 命令 可 以 用 于 设置 键 的 生存 时 间 《〈 键 可 以 存在 
多 久 ) 或 过 期 时 间 《〈 键 什么 时 候 会 被 删除 ) : 


:EXPIRE<key><ttl> 命 令 用 于 将 键 key 的 生存 时 间 设 置 为 tl 秒 。 
-PEXPIRE<key><ttl> 命 令 用 于 将 键 key 的 生存 时 间 设 置 为 节 军 秒 。 


:EXPIREAT<key><timestamp> 命 令 用 于 将 键 key 的 过 期 时 间 设 置 为 
timestamp 所 指定 的 秒 数 时 间 玲 。 


.PEXPIREAT<key><timestamp> 命 令 用 于 将 键 key 的 过 期 时 间 设 置 为 
timestamp 上 所 指定 的 坚 秒 数 时 间 戳 。 


虽然 有 多 种 不 同 单位 和 不 同形 式 的 设置 命令 ， 但 实际 上 EXPIRE、 
PEXPIRE、EXPIREAT 三 个 命令 都 是 使 用 PEXPIREAT 命 令 来 实现 的 : 
无 论 客户 端 执行 的 是 以 上 四 个 命令 中 的 哪 一 个 ， 经 过 转换 之 后 ， 最 终 的 


执行 效果 都 和 执行 PEXPIREAT 命 令 一 样 。 


首先 ，EXPIRE 命 令 可 以 转换 成 PEXPIRE 命 





def RE tt]_in_sec) : 


将 TT 

从 和 络 换 成 这 和 
ttl_in ms = sec_to_ms(ttl_in_sec) 
PEXPIRE(Kkey, ttl_in_ms) 





接着 ，PEXPIRE 命 令 又 可 以 转换 成 PEXPIREAT 命 令 





def PEXPIRE(kKkey,ttl1_in_ms): 

获取 以 毫秒 计算 的 当前 UNIX 

时 间 惟 
now_ms = get_current_unix_timestamp_in_ms() 
# 

当前 时 间 加 上 TTL 


， 得 出 毫秒 格式 的 键 过 期 时 间 
PEXPIREAT(Kkey,now_ ms+tt]_ in_ms) 





并 且 ，EXPIREAT 命 令 也 可 以 转换 成 PEXPIREAT 命 令 





def PT tn se) 


将 过 期 时 间 从 秒 转换 为 这 和 
expire_ time_in ms = sec_to ms(expire time_in_sec) 
PEXPIREAT(Kkey, expire time_in_ms) 





最 终 ，FEXPIRE、PEXPIRE 和 EXPIREAT 三 个 命令 都 会 转换 成 
PEXPIREAT 命 令 来 执行 ， 如 图 9-11 所 示 。 


EXPIRE 


| 转换 成 


PEXPIRE EXPIREAT 


\、 轩 六 成 转换 上 


PEXPIREAT 
图 9-11 设置 生存 时 间 和 设置 过 期 时 间 的 命令 之 间 的 转换 





9.4.2 ”保存 过 期 时 间 


redisDb 0 i ns 半期 时 间 ， 我 们 
称 这 个 字典 为 过 期 字典 


:过 期 字典 的 键 是 一 个 指针 ， 这 个 指针 指 癌 键 空间 中 的 茶 个 键 对 象 
(也 即 是 茶 个 数据 库 键 〉。 


过 期 字典 的 值 是 一 个 long long 类 型 的 整数 ， 这 个 整数 保存 了 键 所 指 
器 的 数据 库 键 的 过 期 时 间 一 一 一 个 坚 秒 精度 的 UNIX 时 间 戳 。 








typedef struct redisDb { 
2 也 
和 保 人 
ires; 


py 
} redisDb; 


图 9-12 展 示 了 一 个 带 有 过 期 字典 的 数据 库 例子 ， 在 这 个 例子 中 ， 键 
i 了 数据 库 中 的 所 有 键 值 对 ， 而 过 期 字典 则 保存 了 数据 库 键 的 过 
期 时 间 。 


mn 
| ~ 
| 


AN f 
A 
Ka ;于 局 \ 


为 了 展示 方便 ， 图 9-12 的 键 空间 和 过 期 字典 中 重复 出 现 了 两 次 
alphabet 键 对 象 和 book 键 对 象 。 在 实际 中 ， 键 空间 的 键 和 过 期 字典 的 键 
都 指 癌 同 一 个 键 对 象 ， 所 以 不 会 出 现任 何 重复 对 象 ， 也 不 会 浪费 任何 空 
间 。 
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Strlngob]ject 
"hello world" 


long long 
1385877600000 


"alphabet" 
String0bject 
"book" 
long long 
1388556000000 


图 9-12 ” 带 有 过 期 字典 的 数据 库 例 子 
图 9-12 中 的 过 期 字典 保存 了 两 个 键 值 对 : 
:第 一 个 键 值 对 的 键 为 alphabet 刍 对象， 值 为 1385877600000， 这 表 


示 数 据 库 键 alphabet 的 过 期 时 间 为 1385877600000 (2013 年 12 月 1 日 零 
时 ) 。 
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Stringobject 


















:第 二 个 键 值 对 的 键 为 book 键 对 象 ， 值 为 1388556000000， 这 表示 数 
据 库 键 book 的 过 期 时 间 为 1388556000000 (2014 年 1 月 1 日 零 时 ) 。 


当 客 户 端 执 行 PEXPIREAT 命 令 〈 或 者 其 他 三 个 会 转换 成 
PEXPIREAT 命 令 的 命令 ) 为 一 个 数据 库 键 设置 过 期 时 间 时 ， 服 务 器 会 
在 数据 库 的 过 期 字典 中 关联 给 定 的 数据 库 键 和 过 期 时 间 。 


举 个 例子 ， 如 宁 数 据 库 当 前 的 状态 如 岁 9-12 所 示 ， 那 么 在 服务 器 执 
Dn 





redis> PEXPIREAT messa ge 1391234400000 
(integer) 1 


过 期 字典 将 新 增 一 个 键 值 对 ， 其 中 键 为 message 刍 对象， 而 值 则 为 
1391234400000 (2014 年 2 月 1 日 零 时 ) ， 如 图 9-13 所 示 。 


dict 


StringObject 
"alphabet" 


Stringobject 
"book" 


新 添加 Stringobject 


"message" 


Stringobject StringObject| |Stringobject 
Wa Wo We 


ne HashObject StrinoObject 

oA StringObject | "Redis in Action" 
[| Stringobject "name" 

| ook Stringobject Stringobject 
Stringobject "author" "Josiah L, Carlson" 
ee Strlng0bject 
| ms | "publisher" String0bject 

"Manning" 





Sttingobject 
"hello world" 


long long 
1385877600000 


long long 
1388556000000 


long long 
1391234400000 


图 9-13 ”执行 PEXPIREAT 命 令 之 后 的 数据 库 


以 下 是 PEXPIREAT 命 令 的 伪 代 码 定义 : 





def PEXPIREAT(Kkey, expire_ time_in_ms): 


# 
人 空间 ， ei 0 
key not in redisDb 
returng 
在 过 其 字典 中 关联 健 和 过 期 时 间 
redisDb.expires[key] = expire time_in_ms 





过 期 时 间 设 置 成 功 
return 1 





9.4.3” 移 除 过 期 时 间 


PERSIST 命 令 可 以 移 除 一 个 键 的 过 期 时 间 : 





redis> PEXPIREAT message 1391234400000 
(integer) 1 

redis> TTL message 

(integer) 13893281 

redis> PERSIST message 

(integer) 1 

redis> TTL message 

(integer) -1 





PERSIST 命 令 就 是 PEXPIREAT 命 令 的 反 操作 : PERSIST 命 令 在 过 期 
0 并 解除 键 和 值 〈 过 期 时 间 ) 在 过 期 字典 中 的 关 
联 。 


举 个 例子 ， 如 果 数 据 库 当 前 的 状态 如 图 9-12 所 示 ， 那 么 当 服务 器 执 
行 以 下 命令 之 后 : 





redis> PERSIST book 
(integer) 1 





数据 库 将 更 新 成 图 9-14 所 示 的 状态 。 


ListObject 







; Stringobject | | Stzingobject| | Stringobject 
dict Won nen 


StringOb]ject 
HashObject 


"alphabet" 
StringObject StringObject 
"book fi 1 
name 
Stringobject 
"message" 



































Stringobject 
"Redis in Actionn 


























Strlng0bject 
"author" 


Strlingobject 
"Josiah L, Carlson" 






Stringobject 
"publisher" 








Strlngobject 
"Manning" 





dict 


Stringobject 
"alphabet" 


1385877600000 


图 9-14 ”执行 PERSIST 之 后 的 数据 库 


可 以 看 到 ， 当 PERSIST 命 令 执行 之 后 ， 过 期 字典 中 原来 的 book 键 值 
对 消失 了 ， 这 代表 数据 库 键 book 的 过 期 时 间 已 经 被 移 除 。 


以 下 是 PERSIST 命 令 的 伪 代 码 定义 : 





def PERSIST(key): 


如 果 键 不 存在 ， 或 者 键 没 有 设置 过 期 时 间 ， 那 么 直接 返回 
if key not in redisDb .expires: 
returng 


# 
移 除 过 期 字典 中 给 定 键 的 键 值 对 关联 
redisDb.expires.remove(key) 


# 
键 的 过 期 时 间 移 除 成 功 
return 1 








9.4.4 计算 并 返回 剩余 生存 时 间 


TIL 命 令 以 秒 为 单位 返回 键 的 剩余 生存 时 间 ， 而 PTTL 命 令 则 以 旦 
秒 为 单位 返回 键 的 剩余 生存 时 间 : 





redis> PEXPIREAT alphabet 1385877600000 
(integer) 1 

redis> TTL alphabet 

(integer) 8549007 

redis> PTTL alphabet 

(integer) 8549001011 





TIL 和 PTTL 两 个 命 < 令 都 是 通过 计算 键 的 过 期 时 间 和 当前 时 间 之 间 
的 差 来 实现 的 ， 以 下 是 这 两 个 命令 的 伪 代 码 实现 : 





def PTTL(key ) : 
# 
键 不 存在 于 数据 库 
if key not in redisDb.dict: 
return-2 
# 
尝试 取得 键 的 过 期 时 间 
# 
如 果 键 没有 设置 过 期 时 间 ， 那 么 expire_time_in_ms 


将 为 None 
expire_time_in_ms = redisDb.expires.get(key) 
# 
键 没有 设置 过 期 时 间 
if expire time_in ms is None: 
return -1 


# 
获得 当前 时 间 
now_ms = get_current_unix_timestamp_in_ms() 


# 
过 期 时 间 减 去 当前 时 间 ， 得 出 的 差 就 是 键 的 剩余 生存 时 间 
return(expire_ time_in ms - now_ms) 
def TTL(key ) : 


获取 以 毫秒 为 单位 的 剩余 生存 时 间 
ttl_in ms = PTTL(Kkey) 
if ttl in ms < 0: 








处 理 返 回 值 为 -2 
和 -1 
的 情况 
return ttl in_ms 
人 
# 
将 毫秒 转换 为 秒 
return ms_to_sec(tt1_in_ms) 





举 个 例子 ， 对 于 一 个 过 期 时 间 为 1385877600000 (2013 年 12 月 1 日 零 
时 ) 的 键 alphabet 来 说 : 


:如 果 当 前 时 间 为 1383282000000 (2013 年 11 月 1 日 零 时 ) ， 那 么 对 
键 alphabet 执 行 PTTL 命 令 将 返回 2595600000， 这 个 值 是 通过 用 alphabet 键 
的 过 期 时 间 减 去 当前 时 间 计 算得 出 的 : 1385877600000- 
1383282000000=2595600000。 


一 方面 ， 如 果 当 前 时 间 为 1383282000000 〈2013 年 11 月 1 日 零 
时 ) ， 那 么 对 键 alphabet 执 行 TITL 命 令 将 返回 2595600， 这 个 值 是 通过 计 
算 alphabet 键 的 过 期 时 间 减 去 当前 时 间 的 差 ， 然 后 将 差 值 从 毫秒 转换 为 
秒 之 后 得 出 的 。 
9.4.5 ”过 期 键 的 判定 
通过 过 期 字典 ， 程 序 可 以 用 以 下 步骤 检查 一 个 给 定 键 是 否 过 期 : 


1) 检查 给 定 键 是 否 存 在 于 过 期 字典 ， 如 果 存 在 ， 那 么 取得 键 的 过 
期 时 间 。 


2) 检查 当前 UNIX 时 间 恰 是否 大 于 键 的 过 期 时 间 : 如 果 是 的 话 ， 那 
么 键 已 经 过 期 ;， 售 则 的 话 ， 键 未 过 期 。 


可 以 用 伪 代 码 来 描述 这 一 过 程 : 




















def is_ expired(key): 


Re 
me_in_ms = redisDb.expires.get(key) 


二 过 期 
expire_ti in_ms is None: 
fee 前 False 


# 
取得 当前 时 间 的 UNIX 
时 间 戳 


now_ms = get_current_unix_timestamp_in_ms() 


# 
检查 当前 时 间 是 否 大 于 键 的 过 期 时 间 
if now_ms > expire_ time_in ms 





# 
是 ， 键 已 经 过 期 
return True 





过 期 
return False 





举 个 例子 ， 对 于 一 个 过 期 时 间 为 1385877600000 (2013 年 12 月 1 日 零 
时 ) 的 键 alphabet 来 说 : 


:如 果 当 前 时 间 为 1383282000000 〈2013 年 11 月 1 日 零 时 ) ， 那 么 调 
用 is_expired (alphabet) 将 返回 False， 因 为 当前 时 间 小 于 alphabet 键 的 过 
期 时 间 。 


. 另 一 方面 ， 如 果 当 前 时 间 为 1385964000000 (2013 年 12 月 2 日 零 
时 ) ， 那 么 调用 is_expired (alphabet) 将 返回 True， 因 为 当前 时 间 大 于 
alphabet 键 的 过 期 时 间 。 


mn 
CE | 


\ | 
号 i 下 = 
\L 注意 


实现 过 期 键 判定 的 妨 一 种 方法 是 使 用 TIL 命令 或 者 PTTL 命 令 ， 比 
如 说 ， 如 果 对 茶 个 键 执行 TIL 命 令 ， 并 且 命 令 返 回 的 值 大 于 等 于 0， 那 
么 说 明 该 键 示 过期。 在 实际 中 ，Redis 检 查 键 是 否 过 期 的 方法 和 
0 因为 直接 访问 字典 比 执行 一 个 命令 稍 
微 快 一 些 。 


9.5 “过 期 键 删 除 策 略 

经 过 上 一 节 的 介绍 ， 我 们 知道 了 数据 库 键 的 过 期 时 间 都 保存 在 过 期 
字典 中 ， 又 知道 了 如 何 根据 过 期 时 间 去 判断 一 个 键 是 否 过 期 ， 现 在 剩 下 
的 问题 是 ， 如 果 一 个 键 过 期 了 ， 那 么 它 什 么 时 候 会 被 删除 呢 ? 


四 这 个 问题 有 三 种 可 能 的 答案 ， 它 们 分 别 代表 了 三 种 不 同 的 删除 集 











定时 删除 : 在 设置 键 的 过 期 时 间 的 同时 ， 创 建 一 个 定时 器 
(timer) ， 让 定时 器 在 键 的 过 期 时 间 来 临时 ， 立 即 执行 对 键 的 删除 操 
作 。 


惰性 删除 : 放任 键 过 期 不 管 ， 但 是 每 次 从 键 空间 中 获取 键 时 ， 都 
检查 取得 的 键 是 否 过 期 ， 如 果 过 期 的 话 ， 束 删除 该 键 ， 如 果 没 有 过 期 ， 
就 返回 该 键 。 


定期 删除 :每 隔 一 段 时 间 ， 程 序 束 对 数据 库 进 行 一 次 检查 ， 删 除 
9 
由 算法 决定 。 


在 这 三 种 策略 中 ， 第 一 种 和 第 三 种 为 主动 删除 策略 ， 而 第 二 种 则 为 
被 动 删除 策略 。 


9.5.1 定时 删除 


定时 删除 策略 对 内 存 是 最 友好 的 : 通过 使 用 定时 右 ， 定 时 删除 策略 
可 以 保证 过 期 键 会 尽 可 能 快 地 被 删除 ， 并 释放 过 期 键 押 局 用 的 内 存 。 


另 一 方面 ， 定 时 删除 策略 的 缺点 是 ， 它 对 CPU 时 间 是 最 不 友好 的 ， 
在 过 期 键 比较 多 的 情况 下 ， 删 除 过 期 键 这 一 行为 可 能 会 占用 相当 一 部 分 
CPU 时 间 ， 在 内 存 不 紧张 但 是 CPU 时 间 非常 紧 张 的 情况 下 ， 将 CPU 时 间 
用 在 删除 和 当前 任务 无 关 的 过 期 键 上 ， 无 疑 会 对 服务 器 的 响应 时 间 和 和 


吐 量 造成 影响 。 


例如 ， 如 采 正 有 大 量 的 命令 请 求 在 等 待 服务 器 处 理 ， 并 且 服 务 器 当 
前 不 缺少 内 存 ， 那 么 服务 器 应 该 优先 将 CPU 时 间 用 在 处 理 客户 器 的 命令 

















请 求 上 面 ， 而 不 是 用 在 删除 过 期 键 上 面 。 


除 此 之 外 ， 创 建 一 个 定时 器 需要 用 到 Redis 服 务 器 中 的 时 间 事 件 ， 
而 当前 时 间 事 件 的 实现 方式 一 一 无 序 链表 ， 查 找 一 个 事件 的 时 间 复 杂 度 
为 O(N) 一 一 并 不 能 高 效 地 处 理 大 量 时 间 事 件 。 


因此 ， 要 让 服务 器 创建 大 量 的 定时 左 ， 从 而 实现 定时 删除 策略 ， 在 
现 阶段 来 说 并 不 现实 。 


9.5.2 ”惰性 删除 


惰性 删除 策略 对 CPU 时 间 来 说 是 最 友好 的 : 程序 只 会 在 取出 键 时 才 
对 键 进行 过 期 检查 ， 这 可 以 保证 删除 过 期 键 的 操作 只 会 在 非 做 不 可 的 情 
况 下 进行 ， 并 且 删 除 的 目标 仪 限于 当前 处 理 的 键 ， 这 个 策略 不 会 在 删除 
其 他 无 关 的 过 期 键 上 花费 任何 CPU 时 间 。 


惰性 删除 策略 的 缺点 是 ， 它 对 内 存 是 最 不 友好 的 : 如 果 一 个 键 已 经 
过 期 ， 而 这 个 键 义 仍然 保留 在 数据 库 中 ， 那 么 只 要 这 个 过 期 键 不 被 删 
除 ， 它 所 占用 的 内 存 束 不 会 释放 。 


在 使 用 惰性 删除 集 略 时 ， 如 果 数 据 库 中 有 非 第 多 的 过 期 键 ， 而 这 些 
过 期 键 叉 恰好 没有 被 访问 到 的 话 ， 那 么 它们 也 许 永 远 也 不 会 被 删除 〔 除 
非 用 户 手动 执行 ELUSHDB ) ， 我 们 甚至 可 以 将 这 种 情况 看 作 是 一 种 内 
存 泄漏 一 一 无 用 的 垃圾 数据 占用 了 大 量 的 内 存 ， 而 服务 器 却 不 会 自己 去 
释放 它们 ， 这 对 于 运行 状态 非常 依赖 于 内 存 的 Redis 服 务 器 来 说 ， 肯 定 
不 是 一 个 好 消 妃 。 


举 个 例子 ， 对 于 一 些 和 时 间 有 关 的 数据 ， 比 如 日 志 〈log) ， 在 东 
个 时 间 点 之 后 ， 对 它们 的 访问 束 会 大 大 减少 ， 甚 至 不 再 访问 ， 如 果 这 类 
过 期 数据 大 量 地 积压 在 数据 库 中 ， 用 户 以 为 服务 占 已 经 自动 将 它们 删除 
了 ， 但 实际 上 这 些 键 仍然 存在 ， 而 且 键 所 占用 的 内 存 也 没有 释放 ， 那 么 
造成 的 后 果 肯 定 是 非常 严重 的 。 


9.5.3 ”定期 删除 


从 上 面 对 定 时 删除 和 惰性 删除 的 讨论 来 看 ， 这 两 种 删除 方式 在 单一 
使 用 时 都 有 明显 的 缺陷 : 
























































定时 删除 占用 太 多 CPU 时 间 ， 影 响 服务 器 的 啊 应 时 间 和 吞吐 量 。 
惰性 删除 浪费 太 多 内 存 ， 有 内 存 泄漏 的 危险 。 
定期 删除 策略 是 前 两 种 策略 的 一 种 整合 和 折 中 : 


定期 删除 策略 每 隔 一 段 时 间 执 行 一 次 删除 过 期 键 操作 ， 并 通过 限 
制 删 除 操作 执行 的 时 长 和 频率 来 减少 删除 操作 对 CPU 时 间 的 影响 。 


除 此 之 外 ， 通 过 定期 删除 过 期 键 ， 定 期 删除 策略 有 效 地 减少 了 因 
为 过 期 键 而 带 来 的 内 存 浪费 。 


定期 删除 策略 的 难点 是 确定 删除 操作 执行 的 时 长 和 频率 : 
如果 删除 操作 执行 得 太 频 繁 ， 或 者 执行 的 时 间 太 长 ， 定 期 删除 策 
和 


如果 删除 操作 执行 得 太 少 ， 或 者 执行 的 时 间 太 短 ， 定 期 删除 策略 
叉 会 和 惰性 删除 策略 一 样 ， 出 现 浪费 内 存 的 情况 。 


因此 ， 如 果 采 用 定期 删除 策略 的 话 ， 服 务 需 必须 根据 情况 ， 合 理 地 
设置 删除 操作 的 执行 时 长 和 执行 频率 。 





9.6 ”Redis 的 过 期 键 删 除 策略 

在 前 一 节 ， 我 们 讨论 了 定时 删除 、 惰 性 删除 和 定期 删除 三 种 过 期 键 
删除 策略 ，Redis 服 务 器 实际 使 用 的 是 惰性 删除 和 定期 删除 两 种 策略 : 
通过 配合 使 用 这 两 种 删除 策略 ， 服 务 器 可 以 很 好 地 在 合理 使 用 CPU 时 间 
和 避免 浪费 内 存 空间 之 间 取 得 平衡 。 

因为 前 一 节 已 经 介绍 过 惰性 删除 和 定期 删除 两 种 策略 的 概念 了 ， 在 
接 下 来 的 两 个 小 节 中 ， 我 们 将 对 Redis 服 务 器 中 惰性 删除 和 定期 删除 的 
具体 实现 进行 说 明 。 
9.6.1 ”惰性 删除 策略 的 实现 

过 期 键 的 惰性 删除 策略 由 db.c/expireIfNeeded 函 数 实 现 ， 所 有 读 写 数 
据 库 的 Redis 命 令 在 执行 之 前 都 会 调用 expireIfNeeded 函 数 对 输入 键 进 行 
检查 : 


.如 果 输 入 键 已 经 过 期 ， 那 么 expireIfNeeded 函 数 将 输入 键 从 数据 库 
中 删除 。 


.如 果 输 入 键 未 过 期 ， 那 么 expireIfNeeded 函 数 不 做 动作 。 
命令 调用 expireIfNeeded 函 数 的 过 程 如 图 9-15 所 示 。 


expireIfNeeded 函 数 束 像 一 个 过 滤器 ， 它 可 以 在 命令 真正 执行 之 
前 ， 过 滤 掉 过 期 的 输入 键 ， 从 而 避免 命令 接触 到 过 期 键 。 

另外 ， 因 为 每 个 被 访问 的 键 都 可 能 因为 过 期 而 被 expireIfNeeded 函 
数 删除 ， 所 以 每 个 命令 的 实现 函数 都 必须 能 同时 处 理 键 存 在 以 及 键 不 存 
在 这 两 种 情况 : 

: 当 键 存在 时 ， 命 令 按照 键 存在 的 情况 执行 。 


当 键 不 存在 或 者 键 因为 过 期 而 被 expireIfNeeded 函 数 删 除 时 ， 命 令 
按照 键 不 存在 的 情况 执行 。 


举 个 例子 ， 图 9-16 展 示 了 GET 命 令 的 执行 过 程 ， 在 这 个 执行 过 程 





中 ， 命 令 需 要 判断 键 是 人 否 存 在 以 及 键 是 否 过 期 ， 然 后 根据 判断 来 执行 合 
适 的 动作 。 







所 有 读 写 数据 库 的 命令 
SET、LRANGE、SADD、HGET、KEYS 等 


调用 expireIfNeeded 也 数 


输入 键 已 经 过 期 ? 


是 


图 9-15 命令 调用 expireIfNeeded 来 删除 过 期 键 


GET <key> 





图 9-16 ”GET 命令 的 执行 过 程 
9.6.2 ”定期 删除 策略 的 实现 


过 期 键 的 定期 删除 策略 由 redis.cactiveExpireCycle 函 数 实现 ， 每 当 
Redis 的 服务 器 周期 性 操作 redis.c/serverCron 函 数 执行 时 ， 
activeExpireCycle 函 数 就 会 被 调用 ， 它 在 规定 的 时 间 内 ， 分 多 次 过 历 服 
务 器 中 的 各 个 数据 库 ， 从 数据 库 的 expires 字 典 中 随机 检查 一 部 分 键 的 过 
期 时 间 ， 并 删除 其 中 的 过 期 键 。 


整个 过 程 可 以 用 伪 代 码 描述 如 下 : 





## 
默认 每 次 检查 的 数据 库 数量 
DEFAULT_DB_NUMBERS = 16 


# 

默认 每 个 数据 库 检 查 的 键 数量 
DEFAULT_KEY_NUMBERS = 20 
# 

全 局 变量 ， 记 录 检 查 进度 
current db = 0 

def activeExpireCycle() : 


初始 化 要 检查 的 数据 库 数量 

# 
如 果 服 务 器 的 数据 库 数量 比 DEFAULT_DB_NUMBERS 
要 小 


# 
那么 以 服务 器 的 数据 库 数量 为 准 
if server.dbnum < DEFAULT_DB_NUMBERS : 
db_numbers = Server .dbnum 
else: 
db_numbers = DEFAULT_DB_NUMBERS 
# 
遍历 各 个 数据 库 
for i in range(db_numbers): 
# 
如 果 current_db 
的 值 等 于 服务 器 的 数据 库 数量 
# 
这 表示 检查 程序 已 经 遍历 了 服务 器 的 所 有 数据 库 一 次 
# 
将 current_db 
重 置 为 9 
， 开 始 新 的 一 轮 遍 历 
if current_db == Server .dbnum: 


current db = 0 


# 
获取 当前 要 处 理 的 数据 库 
redisDb = server.db[current_db] 
# 
将 数据 库 索 引 增 1 
， 指 向 下 一 个 要 处 理 的 数据 库 
current_db += 1 





# 
for j in range(DEFAULT_KEY_NUMBERS ) : 
如 果 数 据 库 中 没有 一 个 键 带 有 过 期 时 间 ， 那 么 跳 过 这 个 数据 库 


if redisDb.expires.size() == 0: break 


# 
随机 获取 一 个 带 有 过 期 时 间 的 键 
key_with_ttl1 = redisDb.expires.get_random key() 
# 
检查 键 是 否 过 期 ， 如 果 过 期 就 删除 它 
if is_expired(key_with_ttl1) : 
delete_key(key_with_tt1) 


# 
已 达到 时 间 上 限 ， 停 止 处 理 
if reach time limit(): return 


3 


activeExpireCycle 函 数 的 工作 模式 可 以 总 结 如 下 : 





:函数 每 次 运行 时 ， 都 从 一 定数 量 的 数据 库 中 取出 一 定数 量 的 随机 
键 进行 检查 ， 并 删除 其 中 的 过 期 键 。 


.全 局 变量 current db 会 记录 当前 activeExpireCycle 函 数 检 查 的 进度 ， 
并 在 下 一 次 activeExpireCycle 函 数 调 用 时 ， 接 着 上 一 次 的 进度 进行 处 
理 。 比 如 说 ， 如 果 当 前 activeExpireCycle 函 数 在 遍历 10 号 数据 库 时 返回 
了 ， 那 么 下 次 activeExpireCycle 函 数 执行 时 ， 将 从 11 号 数据 库 开 始 碍 找 
并 删除 过 期 键 。 





` 随 着 activeExpireCycle 函 数 的 不 断 执 行 ， 服 务 器 中 的 所 有 数据 库 都 
会 被 检查 一 遍 ， 这 时 函数 将 current_db 变 量 重 置 为 0， 然 后 再 次 开始 新 一 
轮 的 检查 工作 。 


9.7 AOF、RDB 和 复制 功能 对 过 期 键 的 处 理 


在 这 一 他， 我们 将 探讨 过 期 键 对 Redis 服 务 器 中 其 他 模块 的 影响 ， 
看 看 RDB 持 和 久 化 功能 、AOF 持 和 久 化 功能 以 及 复制 功能 是 如 何 处 理 数 据 库 
中 的 过 期 键 的 。 


9.7.1 生成 RDB 文 件 


在 执行 SAVE 命 令 或 者 BGSAVE 命 令 创 建 一 个 新 的 RDB 文 件 时 ， 程 
ee 
文 。 


举 个 例子 ， 如 果 数 据 库 中 包含 三 个 键 kK1、k2、k3， 并 且 k2 已 经 过 
期 ， 那 么 当 执行 SAVE 命 令 或 者 BGSAVE 命 令 时 ， 程 序 只 会 将 k1 和 k3 的 
数据 保存 到 RDB 文 件 中 ， 而 k2 则 会 被 忽略 。 


因此 ， 数 据 库 中 包含 过 期 键 不 会 对 生成 新 的 RDB 文 件 造 成 影响。 
9.7.2 载 和 RDB 文件 


在 启动 Redis 服 务 器 时 ， 如 果 服 务 器 开启 了 RDB 功 能 ， 那 么 服务 器 
将 对 RDB 文 件 进行 载 入 : 


如果 服务 器 以 主 服务 器 模式 运行 ， 那 么 在 载 入 RDB 文 件 时 ， 程 序 
会 对 文件 中 保存 的 键 进行 检查 ， 未 过 期 的 键 会 被 载 入 到 数据 库 中 ， 而 过 
0 
Hg 。 


-如 果 服 务 器 以 从 服务 器 模式 运行 ， 那 么 在 载 入 DB 文件 时 ， 文 件 
中 保存 的 所 有 键 ， 不 论 是 否 过 期 ， 都 会 被 载 入 到 数据 库 中 。 不 过 ， 因 为 
主 从 服务 器 在 进行 数据 同步 的 时 候 ， 从 服务 器 的 数据 库 就 会 被 清空 ， 所 
以 一 般 来 讲 ， 过 期 键 对 载 入 RDB 文 件 的 从 服务 器 也 不 会 造成 影响 。 


举 个 例子 ， 如 果 数 据 库 中 包含 三 个 键 kK1、k2、k3， 并 且 k2 已 经 过 
期 ， 那 么 当 服 务 器 启动 时 : 


如果 服务 器 以 主 服务 避 模 式 运行 ， 那 么 程序 只 会 将 k1 和 k3 载 入 到 











数据 库 ，k2 会 被 忽略 。 


人 
数据 库 。 


9.7.3 AOF 文 件 写 入 

当 服 务 器 以 AOF 持 久 化 模式 运行 时 ， 如 果 数 据 库 中 的 某 个 键 已 经 过 
期 ， 但 它 还 没有 被 惰性 删除 或 者 定期 删除 ， 那 么 AOF 文 件 不 会 因为 这 个 
过 期 键 而 产生 任何 影 啊 。 


当 过 期 键 被 惰性 删除 或 者 定期 删除 之 后 ， 程 序 会 同 AOF 文 件 追 加 
(append) 一 条 DEL 命令 ， 来 显 式 地 记录 该 键 已 被 删除 。 


举 个 例子 ， 如 果 客 户 端 使 用 GET ”message 命令 ， 试 图 访问 过 期 的 
message 键 ， 那 么 服务 器 将 执行 以 下 三 个 动作 : 


1) 从 数据 库 中 删除 message 键 。 

2) 追加 一 条 DEL message 命 令 到 AOF 文 件 。 

3) 向 执行 GET 命 令 的 客户 端 返回 空 回复 。 
9.7.4 AOF 重 写 


和 生成 RDB 文 件 时 类 似 ， 在 执行 AOF 重 写 的 过 程 中 ， 程 序 会 对 数据 
库 中 的 键 进行 检查 ， 已 过 期 的 键 不 会 被 保存 到 重 写 后 的 AOF 文 件 中 。 


举 个 例子 ， 如 果 数 据 库 中 包含 三 个 键 kKL1、k2、k3， 并 且 k2 已 经 过 
期 ， 那 么 在 进行 重 写 工作 时 ， 程 序 只 会 对 k1 和 k3 进 行 重 写 ， 而 k2 则 会 被 
忽略 。 


亲人 有 








因此 ， 数 据 库 中 包含 过 期 键 不 会 对 AOF 重 写 造 成 影响 。 
9.7.5 复制 


当 服务 器 运行 在 复制 模式 下 时 ， 从 服务 器 的 过 期 键 删除 动作 由 主 服 
务 器 控制 ; 





` 主 服务 器 在 加 除 一 个 过 期 键 之 后 ， 会 显 式 地 向 所 有 从 服务 器 及 送 
一 个 DEL 命令 ， 告 知 从 服务 器 删除 这 个 过 期 键 。 


-从 服务 器 在 执行 客户 端 发 送 的 读 命令 时 ， 即 使 碰 到 过 期 键 也 不 会 
将 过 期 键 删除 ， 而 是 继续 像 处 理 未 过 期 的 键 一 样 来 处 理 过 期 键 。 


， 人 才 会 删除 过 
通过 由 主 服务 器 来 控制 从 服务 器 统一 地 删除 过 期 键 ， 可 以 保证 主 从 


服务 器 数据 的 一 致 性 ， 也 正 是 因为 这 个 原因 ， 当 一 个 过 期 键 仍 然 存 在 于 
ee 这 个 过 期 键 在 从 服务 占 里 的 复制 品 也 会 继续 存 
人 





举 个 例子 ， 有 一 对 主 从 服务 器 ， 它 们 的 数据 库 中 都 保存 着 同样 的 三 
个 键 message、xxx 和 yyy， 其 中 message 为 过 期 键 ， 如 图 9-17 所 示 。 


从 服务 器 


(已 过 亏 
XxX 


据 
meSsSaGe meGSSage 
已 过 期 ) (已 过 期 ) 
图 9-17 主 从 服务 器 删除 过 期 键 (1) 

如 果 这 时 有 客户 端 回 从 服务 器 发 送 命令 GET message， 那 么 从 服务 

器 将 发 现 message 键 已 经 过 期 但 从 服务 器 并 不 会 删除 message 键 ， 而 是 


继续 将 message 键 的 值 返回 给 客户 端 ， 就 好 像 message 键 并 没有 过 期 一 
样 ， 如 图 9-18 所 示 。 





从 服务 器 


数据 库 


message 


message 
(已 过 期 ) GET message 


返回 message 键 的 值 





(已 过 期 ) 


XXX 


区 区 区 


Ya YY 





图 9-18” 主 从 服务 器 删除 过 期 键 (2) 


假设 在 此 之 后 ， 有 客户 端 同 主 服 务 嚣 发送 命令 GET message， 那么 
主 服务 器 将 发 现 键 message 己 经 过 期 : 主 服务 涡 会 删除 message 刍 ， 癌 客 
户 端 返回 空 回复 ， 并 向 从 服务 器 发 送 DEL message 命令 ， 如 图 9-19 所 
示 。 


从 服务 器 






DEL message sea 
|) 


YY 


图 9-19 ” 主 从 服务 器 删除 过 期 键 (3) 


从 服务 器 在 接收 到 主 服务 器 友 来 的 DEL message 命 令 之 后 ， 也 会 从 
数据 库 中 删除 message 键 ， 在 这 之 后 ， 主 从 服务 器 都 不 再 保存 过 期 键 
message 了 ， 如 图 9-20 所 示 。 


从 服务 器 





图 9-20” 主 从 服务 器 删除 过 期 键 (4) 


9.8 数据 库 通 知 


数据 库 通 知 是 Redis 2.8 版 本 新 增加 的 功能 ， 这 个 功能 可 以 让 客户 站 
通过 订阅 给 定 的 频道 或 者 模式 ， 来 获知 数据 库 中 键 的 变化 ， 以 及 数据 库 
中 命令 的 执行 情况 。 


举 个 例子 ， 以 下 代码 展示 了 客户 端 如 何 获取 0 号 数据 库 中 针对 
message 键 执行 的 所 有 命令 : 











127.0.0.1:6379> SUBSCRIBE _ _keyspace@0_  _:message 
Reading messages... (press Ctrl-C to quit) 

1) "subscribe" / 

订阅 信息 

2) "__keyspace@0 :message" 

3) (integer) 1 

1) "message" 7 


2) "_ _keyspaceQ0  _:message" 
3) "set" 
1) "message" de 

执行 EXPIRE 

命令 


2) "_ _keyspace@0_  _:message" 





1) "message" di 


命令 
2) "_ _keyspace@0_  _:message" 
3) "del" 








根据 发 回 的 通知 显示 ， 先 后 共有 SET、EXPIRE、DEL 三 个 命令 对 
键 message 进 行 了 操作 。 


这 一 类 关注 “ 某 个 键 执 行 了 什么 命令 ”的 通知 称 为 键 空 间 通知 (key- 
space notification ) ， 除 此 之 外 ， 还 有 另 一 类 称 为 键 事件 通知 (key-event 
notification〉 的 通知 ， 它 们 关注 的 是 “ 某 个 命令 被 什么 键 执行 了 ”。 


以 下 是 一 个 键 事件 通知 的 例子 ， 代 码 展示 了 客户 并 如 何 获 取 0 写 数 
据 库 中 所 有 执行 DEL 命 令 的 键 : 





127.0.0.1:6379> SUBSCRIBE _ _keyevent@0_ _:del 
Reading messages... (press Ctrl-C to quit) 

1) "subscribe" // 

订阅 信息 

2) "_ _keyevent@0_  _:del" 

3) (integer) 1 

1) "message" A 


2) "_ _keyevent@0_ _:del" 
key" 
1) "message" // 


执行 了 DEL 
命令 


"number" 








根据 发 回 的 通知 显示 ，key、number、message 三 个 键 先 后 执行 了 
DEL 命令 。 


服务 器 配置 的 notify-keyspace-events 选 项 决定 了 服务 器 所 发 送 通 知 
的 类 型 


. 想 让 服务 器 发 送 所 有 类 型 的 键 空间 通知 和 键 事件 通知 ， 可 以 将 选 
项 的 值 设 置 为 AKE。 


. 想 让 服务 器 发 送 所 有 类 型 的 键 空间 通知 ， 可 以 将 选项 的 值 设置 为 
AK。 


. 想 让 服务 器 发 送 所 有 类 型 的 键 事 件 通知 ， 可 以 将 选项 的 值 设置 为 
AE。 


- 想 让 服务 器 只 发 送 和 字符 串 键 有 关 的 键 空间 通知 ， 可 以 将 选项 的 
值 设置 为 K$。 


. 想 让 服务 器 只 发 送 和 列表 键 有 关 的 键 事件 通知 ， 可 以 将 选项 的 值 
设置 为 El。 


关于 数据 库 通 知 功能 的 详细 用 法 ， 以 及 notify-keyspace-events 选 项 
的 更 多 设置 ，Redis 的 官方 文档 已 经 做 了 很 详细 的 介绍 ， 这 里 不 再 歼 
在 接 下 来 的 内 容 中 ， 我 们 来 看 看 数据 库 通知 功能 的 实现 原理 。 

9.8.1 发 送 通知 


”公关 数 彬 库 通 重 知 的 功能 是 由 notify.cmnotifyKeyspaceEvent 函 数 实现 





void notifyKeyspaceEvent(int type,char *event,robj *key,int dbid); 


函数 的 type 参 数 是 当前 想 要 发 送 的 通知 的 类 型 ， 程 序 会 根据 这 个 值 
来 判断 通知 是 es -keyspace-events 选 项 所 选 定 的 通 
知 类 型 ， 从 而 决定 是 否 发 送 通 知 。 


event、keys 和 dbid 分 别 是 事件 的 名 称 、 产 生 事 件 的 键 ， 以 及 产生 囊 
件 的 数据 库 号 码 ， 0 重 知 
的 内 容 ， 以 及 接收 通知 的 频道 名 。 


每 当 一 个 Redis 命 令 需 要 发 送 数据 库 通 知 的 时 候 ， 该 命令 的 实现 函 
数 束 会 调用 po 9 函数 ， 并 加 函数 传递 传递 该 命令 所 引发 
的 事件 的 相关 信息 


例如 ， 以 下 是 SADD 命 令 的 实现 函数 saddCommand 的 其 中 一 部 分 代 
码 : 











void saddCcommand(redisCclient*c){ 
2 


// 
如 果 至 少 有 一 个 元 素 被 成 功 添加 ， 那 么 执行 以 下 程序 
if (added) { 
// ， 


// 
发 送 事件 通知 
notifyKeyspaceEvent(REDIS NOTIFY_SET, "sadd",c->argv[1],c->db->id); 





A 
} 








当 SADD 命 令 至 少 成 功 地 向 集合 添加 了 一 个 集合 元 素 之 后 ， 命 令 就 
会 发 送 通 知 ， 该 通知 的 类 型 为 REDIS_NOTIFY_SET (表示 这 是 一 个 集 
合 键 通知 ) ， 名 称 为 sadd〈 表 示 这 是 执行 SADD 命 令 所 产生 的 通知 ) 。 


以 下 是 另 一 个 例子 ， 展 示 了 DEL 命令 的 实现 函数 delCommand 的 其 
中 一 部 分 代码 : 








i delCommand(redisClient *c){ 
ot deleted=0, j; 


遍历 所 有 输入 刍 
for (j=1; j<c->argc; j++){ 


// 
尝试 删除 键 
if (dbDelete(c->db, c->argv[j])){ 


删除 键 成 功 ， 发 和 
tifyKeys acs nt (REDIS_N NOTIFY- GENERIC, 
"de argv[j],c- id); 


在 delCommand 函 数 中 ， 也 数 通 历 所 有 输入 键 ， 并 在 删除 键 成 功 
发 送 通 知 ， 通 知 的 类 型 为 REDIS_NOTIFY_GENERIC (表示 这 是 一 
通用 类 型 的 通知 ) ， 名 称 为 del (表示 这 是 执行 DEL 命 令 所 产生 的 通 





其 他 发 送 通 知 的 函数 调用 nottfyKeyspaceEvent 函数 的 方式 也 和 
soon , delCommand 类 似 ， 只 是 给 定 的 参数 不 同 ， 接 下 来 我 们 
来 看 看 notifyKeyspaceEvent 函 数 的 实现 。 


9.8.2 ”发送 通知 的 实现 
以 下 是 notifyKeyspaceEvent 函 数 的 伪 代 码 实 现 : 





def notifyKeyspaceEvent(type, event, key, dbid): 
如 果 给 定 的 通知 不 是 服务 器 允许 发 送 的 通知 ， 那 么 直接 返回 
if not(server.notify_keyspace_events & type): 
return 


# 
发 送 键 空间 通 久 
if server.notify_keyspace_events & REDIS NOTIFY_KEYSPACE: 


将 通知 发 送 给 频道 _ keyspace@<dbid> :<key> 
内 容 为 键 所 发 生 的 事件 <event> 
# 
构建 频道 名 字 
chan 





"__keyspace@{dbid} :{key}".format(dbid=dbid, key=key) 


发 送 通知 
pubsubPublishMessage(chan, event) 


# 
发 送 键 事件 通知 
if server.notify_keyspace_events & REDIS NOTIFY_KEYEVENT: 


将 通知 发 送 给 频道 _keyevent@<dbid>__:<event> 





# 
内 容 为 发 生 事 件 的 键 <key> 
构建 频道 名 字 
chan = "__keyevent@{dbid}__:{event}".format(dbid=dbid,event=event) 
# 
发 送 通知 
pubsubPublishMessage(chan, key) 





notifyKeyspaceEvent 函 数 执行 以 下 操作 : 


1) server.notify keyspace_events 属 性 就 是 服务 器 配置 notify- 
keyspace-events 选 项 所 设置 的 值 ， 如 果 给 ee \ 是 服务 器 
允许 发 送 的 通知 类 型 ， 那 么 函数 会 直接 返回 ， 不 做 任何 动作 。 


2) 如 果 给 定 的 通知 是 服务 器 允许 发 送 的 通知 ， 那 么 下 一 步 函 数 会 
否 允许 发 送 键 空间 通知 ， 如 果 人 允许 的 话 ， 程序 就 会 构建 并 
中 


3) 最 后 ， 函 数 检测 服务 器 是 否 允 许 发 送 键 事 件 通 知 ， 如 果 人 允许 的 
话 ， 程 序 束 会 构建 并 发 送 事件 通知 。 


pp pubsubPublishMessage 消 数 是 PUBLISH 售 令 的 实现 函数 ， 执 
行 这 个 函数 等 同 于 执行 PUBLISH 命 令 ， 订 阅 数据 库 通 知 的 客户 端 收 到 的 
信息 就 是 由 这 个 函数 发 出 的 ，pubsubPublishMessage 函 数 具 体 的 实现 细 
节 可 以 参考 第 18 章 。 








9.9 重点 回顾 


.Redis 服 务 器 的 所 有 数据 库 都 保存 在 redisServer.db 数 组 中 ， 而 数据 
库 的 数量 则 由 redisServer.dbnum 属 性 保存 。 


客户 端 通过 修改 目标 数据 库 指 针 ， 让 它 指 同 redisServer.db 数 组 中 的 
不 同 元 素来 切换 不 同 的 数据 库 。 


数据库 主要 由 dict 和 expires 两 个 字典 构成 ， 其 中 dict 字 典 负责 保存 
键 值 对 ， 而 expires 字 典 则 负责 保存 键 的 过 期 时 间 。 


.因为 数据 库 由 字典 构成 ， 所 以 对 数据 库 的 操作 都 是 建立 在 字典 操 
作 之 上 的 。 


数据 库 的 键 总 是 一 个 字符 串 对 象 ， 而 值 则 可 以 是 任意 一 种 Redis 对 
象 类 型 ， 包 括 字符 串 对 象 、 哈 希 表 对 象 、 集 合 对 象 、 列 表 对 象 和 有 序 集 
全 对象， 分 别 对 应 字符 站 键 、 哈 希 表 键 、 集 合 键 ， 列 表 键 和 有 序 集合 

















expires 字 典 的 键 指向 数 据 库 中 的 系 个 键 ， 而 值 则 记录 了 数据 库 键 
的 过 期 时 间 ， 过 期 时 间 是 一 个 以 旱 秒 为 单位 的 UNIX 时 间 截 。 


Redis 使 用 惰性 删除 和 定期 删除 两 种 策略 来 删除 过 期 的 键 : 惰性 删 
除 策略 只 在 碰 到 过 期 键 时 才 进 行 删除 操作 ， 定 期 删除 策略 则 每 隅 一 段 时 
间 主 动 查 找 并 删除 过 期 键 。 


.执行 SAVE 命 令 或 者 BGSAVE 命 令 所 产生 的 新 RDB 文 件 不 会 包含 已 
经 过 期 的 键 。 


-执行 BGREWRITEAOF 命 令 所 产生 的 重 写 AOF 文 件 不 会 包含 已 经 过 
期 的 键 。 


. 当 一 个 过 期 键 被 删除 之 后 ， 服 务 器 会 退 加 一 条 DEL 命令 到 现 有 
AOF 文 件 的 末尾 ， 显 式 地 删除 过 期 键 。 


当主 服务 器 删除 一 个 过 期 键 之 后 ， 它 会 铝 所 有 从 服务 器 发 送 一 条 
DEL 命令 ， 显 式 地 删除 过 期 键 。 


:从 服务 器 即使 及 现 过 期 键 也 不 会 目 作 主张 地 删除 它 ， 而 是 等 待 主 
节点 发 来 DEL 命 令 ， 这 种 统一 、 中 心 化 的 过 期 键 删除 策略 可 以 保证 主 从 
服务 器 数据 的 一 致 性 。 


当 Redis 命 令 对 数据 库 进 行 修 改 之 后 ， 服 务 器 会 根据 配置 癌 客 户 端 
发 送 数据 库 通 知 。 


第 10 章 RDB 持 久 化 


Redis 是 一 个 键 值 对 数据 库 服务 器 ， 服 务 右 中 通常 包含 着 任意 个 非 
空 数据 库 ， 而 每 个 非 空 数据 库 中 又 可 以 包含 任意 个 键 值 对 ， 为 了 方便 起 
见 ， 我 们 将 服务 器 中 的 非 空 数 据 库 以 及 它们 的 键 值 对 统称 为 数据 库 状 


态 。 








举 个 例子 ， 图 10-1 展 示 了 一 个 包含 三 个 非 空 数据 库 的 Redis 服 务 嚣 ， 
这 三 个 数据 库 以 及 数据 库 中 的 键 值 对 就 是 该 服务 器 的 数据 库 状 态 。 


Redis 服 务 器 





图 10-1 ”数据库 状态 示例 


因为 Redis 是 内 存 数据 库 ， 它 将 自己 的 数据 库 状 态 储 存在 内 存 里 
面 ， 所 以 如 果 不 想 办 法 将 储存 在 内 存 中 的 数据 库 状 态 保存 到 磁盘 里 面 ， 
那么 一 旦 服务 器 进程 退出 ， 服 务 器 中 的 数据 库 状 态 也 会 消失 不 见 。 


为 了 解决 这 个 问题 ，Redis 提 供 了 RDB 持 久 化 功能 ， 这 个 功能 可 以 
将 Redis 在 内 存 中 的 数据 库 状 态 保存 到 磁盘 里 面 ， 避 免 数 据 意外 丢失 。 


RDB 持 久 化 既 可 以 手动 执行 ， 也 可 以 根据 服务 器 配置 选项 定期 执 
A 
图 10-2 所 未 。 


RDB 持 和 久 化 功能 所 生成 的 RDB 文 件 是 一 个 经 过 压缩 的 二 进 制 文件 ， 
通过 该 文件 可 以 还 原生 成 RDB 文 件 时 的 数据 库 状态 ， 如 图 10-3 所 示 。 

















数据 库 \ 保存 为 
》 CA 


LN 






图 10-2 ”将 数据 库 状 态 保存 为 RDB 文 件 





图 10-3 ”用 RDB 文 件 来 还 原 数据 库 状 态 
因为 RDB 文 件 是 保存 在 硬盘 里 面 的 ， 所 以 即使 Redis 服 务 器 进程 退 
出 ， 甚 至 运行 Redis 服 务 器 的 计算 机 停机 ， 但 只 要 RDB 文 件 仍然 存在 ， 
Redis 服 务 器 就 可 以 用 它 来 还 原 数据 库 状 态 。 


本 章 首 先 介绍 Redis 服 务 器 保存 和 载 入 RDB 文 件 的 方法 ， 重 点 说 明 
SAVE 命 令 和 BGSAVE 命 令 的 实现 方式 。 


之 后 ， 本 章 会 继续 介绍 Redis 服 务 需 目 动 保存 功能 的 实现 原理 。 


在 介绍 完 关 于 保存 和 载 入 RDB 文 件 方面 的 内 容 之 后 ， 我 们 会 详细 分 
析 RDB 文 件 中 的 各 个 组 成 部 分 ， 并 说 明 这 些 部 分 的 结构 和 含义 。 


在 本 章 的 最 后 ， 我 们 将 对 实际 的 RDB 文 件 进 行 分 析 和 人 解读， 将 之 前 
学 到 的 关于 RDB 文 件 的 知识 投入 到 实际 应 用 中 。 








10.1 RDB 文 件 的 创建 与 载 入 


有 两 个 Redis 命 令 可 以 用 于 生成 RDB 文 件 ， 一 个 是 SAVE， 另 一 个 是 
BGSAVE。 


SAVE 命 令 会 阻塞 Redis 服 务 器 进程 ， 直 到 RDB 文 件 创建 完毕 为 止 ， 
在 服务 器 进程 阻塞 期 间 ， 服 务 器 不 能 处 理 任 何 命令 请 求 : 





redis> SAVE fy 
等 待 直到 RDB 

文件 创建 完毕 

OK 





和 SAVE 命 令 直接 阻塞 服务 器 进程 的 做 法 不 同 ，BGSAVE 命 令 会 派 
生出 一 个 子 进程 ， 然 后 由 子 进程 负责 创建 RDB 文 件 ， 服 务 器 进程 〈 父 进 
程 ) 继续 处 理 命 令 请 求 : 





redis> BGSAVE TF 
派生 子 进程 ， 并 由 子 进程 创建 RDB 








文件 
Background saving started 





创建 RDB 文 件 的 实际 工作 由 rdb.crdbSave 函 数 完成 ，SAVE 命 令 和 
BGSAVE 命 令 会 以 不 同 的 方式 调用 这 个 函数 ， 通 过 以 下 伪 代 码 可 以 明显 
地 看 出 这 两 个 命令 之 间 的 区 别 : 





def SAVE(): 


创建 RDB 
文件 
rdbSave() 
def BGSAVE() : 
# 
创建 子 进程 
pid = fork() 
if pid == 0: 
# 
子 进程 负责 创建 RDB 
文 
rdbSave() 
完成 之 后 向 父 进程 发 送信 号 
Signal_parent() 
人: 


elif pid > 
# 
父 进程 继续 处 理 命令 请 求 ， 并 通过 轮 询 等 待 子 进程 的 信号 
handle_request_and wait_signal() 
LR: 
处 理 出 错 情况 
handle_fork_error() 


= 


和 使 用 SAVE 命 令 或 者 BGSAVE 命 令 创 建 RDB 文 件 不 同 ，RDB 文 件 
的 载 入 工作 是 在 服务 器 启动 时 自动 执行 的 ， 所 以 Redis 并 没有 专门 用 于 
载 入 RDB 文 件 的 命令 ， 只 要 Redis 服 务 器 在 启动 时 检测 到 RDB 文 件 存 
在 ， 它 就 会 目 动 载 入 RDB 文 件 。 


以 下 是 Redis 服 务 器 启动 时 打印 的 日 志 记 录 ， 其 中 第 二 条 日 志 DB 
loaded from disk:.. .就 是 服务 器 在 成 功 载 入 DB 文件 之 后 打印 的 : 








9 30 A ye 3 07:01.270 # Serve ed, Redi ersion 2.9.11 
[7379] 30 Aug 21:07:01.289 * DB 1 ade ed re i Sk: 015 secon ds 
[7379] 30 Aug 21:07:01.289 * The eady to accept connections on port 6379 





为 外 值得 一 提 的 是 ， 因 为 AOF 文 件 的 更 新 频率 通常 比 RDB 文 件 的 更 
新 频率 高 ， 所 以 : 


如果 服务 器 开启 了 AOF 持 久 化 功能 ， 那 么 服务 絮 会 优先 使 用 AOF 
文件 来 还 原 数 据 库 状态 。 


-只 有 在 AOF 持 久 化 功能 处 于 关闭 状态 时 ， 服 务 需 才 会 使 用 RDB 文 
件 来 还 原 数据 库 状 态 。 


服务 器 判断 该 用 哪个 文件 来 还 原 数 据 库 状 态 的 流程 如 图 10-4 所 示 。 


载 入 RDB 文 件 的 实际 工作 由 rdb.c/rdbLoad 函 数 完成 ， 这 个 函数 和 
rdbSave 了 水 数 之 间 的 关系 可 以 用 图 10-5 表 示 。 














已 开局 AOF 持久 化 功能 ? 
是 


图 10-4 服务 器 载 入 文件 时 的 判断 流程 











rdbSave 


rdbLoad 


图 10-5 ”创建 和 载 和 RDB 文件 
10.1.1 ” SAVE 命令 执行 时 的 服务 器 状态 


前 面 提 到 过 ， 当 SAVE 命 令 执行 时 ，Redis 服 务 器 会 被 阻塞 ， 所 以 当 
SAVE 命 令 正 在 执行 时 ， 客 户 端 发 送 的 所 有 命令 请 求 都 会 被 拒绝 。 

只 有 在 服务 器 执行 完 SAVE 命 令 、 重 新 开始 接受 命令 请 求 之 后 ， 客 
户 端 发 送 的 命令 才 会 被 处 理 。 
10.1.2 ”BGSAVE 命 令 执行 时 的 服务 器 状态 

因为 BGSAVE 命 令 的 保存 工作 是 由 子 进程 执行 的 ， 所 以 在 子 进程 创 
建 RDB 文 件 的 过 程 中 ，Redis 服 务 器 仍然 可 以 继续 处 理 客户 端的 命令 请 


求 ， 但 是 ， 在 BGSAVE 命 令 执 行 期 间 ， 服 务 器 处 理 SAVE、BGSAVE、 
BGREWRITEAOF 三 个 命令 的 方式 会 和 平时 有 所 不 同 。 








首先 ， 在 BGSAVE 命 令 执行 期 间 ， 客 户 端 发 送 的 SAVE 命 令 会 被 服 
务 器 拒绝 ， 服 务 器 禁止 SAVE 命 令 和 BGSAVE 命 令 同 时 执行 是 为 了 避免 
I 和 子 进程 同时 执行 两 个 rdbSave 调 用 ， 防 止 产生 
见于 不 o 


其 次 ， 在 BGSAVE 命 令 执行 期 间 ， 客 户 端 发 送 的 BGSAVE 命 令 会 被 
服务 器 拒绝 ， 因 为 同时 执行 两 个 BGSAVE 命 令 也 会 产生 竞争 条 件 。 


最 后 ，BGREWRITEAOF 和 BGSAVE 两 个 命令 不 能 同时 执行 : 





如果 BGSAVE 命 令 正 在 执行 ， 那 么 客户 端 发 送 的 BGREWRITEAOF 
命令 会 被 延迟 到 BGSAVE 命 令 执行 完毕 之 后 执行 。 


如果 BGREWRITEAOF 命 令 正 在 执行 ， 那 么 客户 端 发 送 的 BGSAVE 
命令 会 被 服务 器 拒绝 。 

因为 BGREWRITEAOF 和 BGSAVE 两 个 命令 的 实际 工作 都 由 子 进程 
执行 ， 所 以 这 两 个 命令 在 操作 方面 并 没有 什么 冲突 的 地 方 ， 不 能 同时 执 
行 它们 只 是 一 个 性 能 方面 的 考虑 并 发 出 两 个 子 进程 ， 并 且 这 两 个 子 
进程 都 同时 执行 大 量 的 磁盘 写 入 操作 ， 这 怎么 想 都 不 会 是 一 个 好 主意 。 
10.1.3 RDB 文 件 载 入 时 的 服务 器 状态 


ee 会 一 直 处 于 阻塞 状态 ， 直 到 载 入 工作 
让 
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10.2 ”上 自动 间隔 性 保存 


在 上 一 节 ， 我 们 介绍 了 SAVE 命 令 和 BGSAVE 的 实现 方法 ， 并 且说 
明了 这 两 个 命令 在 实现 广 面 的 主要 区 别 : SAVE 命 令 由 服务 器 进程 执行 
保存 工作 ，BGSAVE 命 令 则 由 子 进 程 执 行 保 存 工作 ， 所 以 SAVE 命 令 会 
阻塞 服务 器 ， 而 BGSAVE 命 令 则 不 会 。 


因为 BGSAVE 命 令 可 以 在 不 阻塞 服务 器 进程 的 情况 下 执行 ， 所 以 
Redis 人 允许 用 请 通 过 设置 服务 器 配置 的 save 选 项 ， 让 服务 器 每 隔 一 段 时 间 
自动 执行 一 次 BGSAVE 命 令 。 


用 户 可 以 通过 save 选 项 设置 多 个 保存 条 件 ， 但 只 要 其 中 任意 一 个 条 
件 被 满足 ， 服 务 嚣 束 会 执行 BGSAVE 命 令 。 


举 个 例子 ， 如 果 我 们 回 服务 器 提供 以 下 配置 : 














save 900 1 
ave 300 10 
ave 60 10000 








那么 只 要 满足 以 下 三 个 条 件 中 的 任意 一 个 ，BGSAVE 命 令 就 会 被 执 


但: 
:服务 器 在 900 秒 之 内 ， 对 数据 库 进行 了 至 少 1 次 修改 。 
:服务 器 在 300 秒 之 内 ， 对 数据 库 进 行 了 至 少 10 次 修改 。 
:服务 器 在 60 秒 之 内 ， 对 数据 库 进 行 了 至 少 10000 次 修改 。 


举 个 例子 ， 以 下 是 Redis 服 务 器 在 60 秒 之 内 ， 对 数据 库 进 行 了 至 少 
10000 次 修改 之 后 ， 服 务 器 自动 执行 BGSAVE 命 令 时 打印 出 来 的 日 志 : 





[5085] 03 Sep 17:09:49.463 * 10000 changes in 60 onds ing. 
[5085] 03 Sep 17:09:49.463 * Ba 人 na ‘saving s sta Ft ed by 3 让 5189 
[5189] 03 Sep 17:09:49.522 * DB Ve disk 

[5189] 93 Sep 17:09:49.522 * RDEY 6 ve of memor y use0 byc opy-0 write 
[5085] 03 Sep 17:09:49.563 * Background Saving te ated with ee 








在 本 节 接 下 来 的 内 容 中 ， 我 们 将 介绍 Redis 服 务 器 是 如 何 根据 save 选 


项 设置 的 保存 条 件 ， 目 动 执行 BGSAVE 命 令 的 。 
10.2.1 设置 保存 条 件 
当 Redis 服 务 器 启动 时 ， 用 户 可 以 通过 指定 配置 文件 或 者 传 入 启动 


参数 的 方式 设置 save 选 项 ， 如 果 用 户 没 有 主动 设置 save 选 项 ， 那 么 服务 
器 会 为 save 选 项 设置 默认 条 件 : 











Save 900 1 
save 300 10 
save 60 10000 





接着 ， 服 务 器 程序 会 根据 save 选 项 所 设置 的 保存 条 件 ， 设 置 服 务 器 
状态 redisServer 结 构 的 saveparams 属 性 : 





struct redisServer { 

WE 

Pad 
记录 了 保存 条 件 的 数组 

struct saveparam *saveparams; 
Rs 


}; 








saveparams 属 性 是 一 个 数组 ， 数 组 中 的 每 个 元 素 都 是 一 个 saveparam 
结构 ， 每 个 saveparam 结 构 都 保存 了 一 个 save 选 项 设置 的 保存 条 件 : 





struct saveparam { 
ZI 

秒 数 
time_t seconds; 


修改 间 
int changes 
1 





比如 说 ， 如 果 save 选 项 的 值 为 以 下 条 件 : 





save 900 1 
save 300 10 
save 60 10000 





那么 服务 器 状态 中 的 saveparams 数 组 将 会 是 图 10-6 所 示 的 样子 。 



















redisServer 
Saveparams 


Saveparams [0] | saveparams [1] | saveparams [2] 
seconds seconds seconds 
900 300 60 
changes changes changes 

上 10 10000 


图 10-6 ”服务 器 状态 中 的 保存 条 件 


10.2.2 。 dirty 计数器 和 lastsave 属 性 


除了 saveparams 数 组 之 外 ， 服 务 器 状态 还 维持 着 一 个 dirty 计 数 器 ， 
以 及 一 个 lastsave 属 性 : 


dirty 计 数 器 记录 距离 上 一 次 成 功 执行 SAVE 命 令 或 者 BGSAVE 命 令 
之 后 ， 服 务 器 对 数据 库 状 态 〈 服 务 器 中 的 所 有 数据 库 ) 进行 了 多 少 次 修 
改 〈 包 括 写 入 、 删 除 、 更 新 等 操作 ) 。 


.lastsave 属 性 是 一 个 UNIX 时 间 惟 ， 记 录 了 服务 器 上 一 次 成 功 执行 
SAVE 命 令 或 者 BGSAVE 命 令 的 时 间 。 














struct redisServer { 
PE 


7 
修改 计数 器 
long long dirty; 
上 一 次 执行 保存 的 时 间 
time_t lastsave; 
证 
}; 





当 服 务 器 成 功 执行 一 个 数据 库 修 改 命令 之 后 ， 程 序 就 会 对 dirty 计 数 
需 进 行 更 新 :; 命令 修改 了 多 少 次 数据 库 ，dirty 计 数 器 的 值 就 增加 多 少 。 


例如 ， 如 采 我 们 为 一 个 字符 串 键 设置 值 : 





redis> SET message "hello" 





那么 程序 会 将 dirty 计 数 器 的 值 增加 1。 
又 例如 ， 如 果 我 们 同一 个 集合 键 增加 三 个 新 元 素 : 





redis> SADD database Redis MongoDB MariaDB 
(integer) 3 





那么 程序 会 将 dirty 计 数 器 的 值 增加 3。 


redisServer 


lastsave 
378270800 





图 10-7 服务 器 状态 示例 


i 图 10-7 展 示 了 服务 器 状态 中 包含 的 dirty 计 数 器 和 lastsave 属 性 ， 说 明 
D0 下: 

.dirty 计 数 器 的 值 为 123， 表 示 服 务 器 在 上 次 保存 之 后 ， 对 数据 库 状 
态 共 进行 了 123 次 修改 。 


.lastsave 属 性 则 记录 了 服务 器 上 次 执行 保存 操作 的 时 间 
1378270800 (2013 年 9 月 4 日 零 时 ) 。 


10.2.3 ”检查 保存 条 件 是 否 满 足 


Redis 的 服务 器 周期 性 操作 函数 serverCron 默 认 每 隔 100 训 秒 就 会 执 
行 一 次 ， 该 函数 用 于 对 正在 运行 的 服务 器 进行 维护 ， 它 的 其 中 一 项 工作 
束 是 检查 Save 和 饮 项 所 设置 的 保存 条 件 是 否 已 经 满足 ， 如 果 满 足 的 话 ， 就 
执行 BGSAVE 命 令 。 


























以 下 伪 代 码 展 示 了 serverCron 函 数 检查 保存 条 件 的 过 程 : 





def serverCron(): 
其 
# 
遍历 所 有 保存 条 件 
for saveparam in server.saveparams: 


计算 距离 上 次 执行 保存 操作 有 多 少 秒 


save_interval = unixtime_now()-server.lastsave 

如 果 数 据 库 状态 的 修改 次 数 超过 条 件 所 设置 的 次 数 

并 且 距 离 次 保 丰 的 时 间 超 过 条 件 所 设置 的 时 间 

那么 执行 保存 操作 
if 





server.dirty >= saveparam.changes and \ 
save_interval > saveparam.seconds: 
BGSAVE() 

其 -ea 





程序 会 般 历 并 检查 Saveparams 数 组 中 的 所 有 保存 条 件 ， 只 要 有 任意 
一 个 条 件 被 满足 ， 那 么 服务 器 束 会 执行 BGSAVE 命 令 。 


举 个 例子 ， 如 果 Redis 服 务 右 的 当前 状态 如 图 10-8 所 示 。 


saveparams [0] | saveparams [1] | saveparams [2] 
seconds seconds seconds 
900 300 60 
changes changes changes 

. 10 10000 











dirty 
L23 





图 10-8 ”服务 器 状态 


那么 当时 间 来 到 1378271101， 也 即 是 1378270800 的 301 秒 之 后 ， 服 
务 右 将 自动 执行 一 次 BGSAVE 命 令 ， 因 为 saveparams 数 组 的 第 二 个 保存 
条 件 一 300 秒 之 内 有 至 少 10 次 修改 一 已 经 被 满足 。 


假设 BGSAVE 在 执行 5 秒 之 后 完成 ， 那 么 图 10-8 所 示 的 服务 器 状态 
将 更 新 为 图 10-9， 其 中 dirty 计 数 器 已 经 被 重 置 为 0， 而 lastsave 属 性 也 被 


更 新 为 1378271106 。 










redisServer 






saveparams [0] | saveparams [1] | saveparams [2] 
seconds seconds seconds 
900 300 60 
changes changes changes 

1 10 10000 











Saveparams 









dirty 










lastsave 
1378271106 


图 10-9 执行 BGSAVE 之 后 的 服务 器 状态 


以 上 就 是 Redis 服 务 圳 根据 save 选 项 所 设置 的 保存 条 件 ， 目 动 执行 
BGSAVE 命 令 ， 进 行 间 隔 性 数据 保存 的 实现 原理 。 


10.3 ”RDB 文件 结构 


在 本 章 之 前 的 内 容 中 ， 我 们 介绍 了 Redis 服 务 右 保存 和 载 和 DB 文 
件 的 方法 ， 在 这 一 节 ， 我 们 将 对 RDB 文 件 本 里 进行 介绍 ， 并 详细 说 明文 
件 各 个 部 分 的 结构 和 意义 。 


图 10-10 展 示 了 一 个 完整 RDB 文 件 所 包含 的 各 个 部 分 。 


图 10-10 ”RDB 文件 结构 


SN | ee 
es :} 乎 局 


为 了 方便 区 分 变量 、 数 据 、 常 量 ， 图 10-10 中 用 全 大 写 单词 标示 和 营 
量 ， 用 全 小 写 单词 标示 变量 和 数据 。 本 章 展示 的 所 有 RDB 文 件 结构 图 都 
遵循 这 一 规则 。 


RDB 文 件 的 最 开头 是 REDIS 部 分 ， 这 个 部 分 的 长 度 为 5 字 节 ， 保 存 
者 “REDIS” 五 个 字符 。 通 过 这 五 个 字符 ， 程 序 可 以 在 载 入 文件 时 ， 快 速 
检查 所 载 入 的 文件 是 否 RDB 文 件 。 


个、 
Cc | 


SN | 
ss 
« es ~ ;二 局 


因为 RDB 文 件 保 存 的 是 二 进 制 数据 ， 而 不 是 C 字 符 串 ， 为 了 简便 起 
见 ， 我 们 用 "REDIS" 符 号 代表 'R'、 开 '、D'、T、'S 五 个 字符 ， 而 不 是 
带 \0' 结 尾 符号 的 C 字 符 串 'R'、'E'、'D'、T、'S'、"\0'。 本 章 介 绍 的 所 有 内 
容 ， 以 及 展示 的 所 有 RDB 文 件 结 构图 都 遵循 这 一 规则 。 

db_version 长 度 为 4 字 节 ， 它 的 值 是 一 个 字符 串 表 示 的 整数 ， 这 个 整 


数 记 录 了 RDB 文 件 的 版 本 号 ， 比 如 "0006" 就 代表 RDB 文 件 的 版 本 为 第 六 
版 。 本 章 只 介绍 第 六 版 RDB 文 件 的 结构 。 














databases 部 分 包含 着 零 个 或 任意 多 个 数据 库 ， 以 及 各 个 数据 库 中 的 
键 值 对 数据 : 


.如 果 服 务 器 的 数据 库 状 态 为 空 〈 所 有 数据 库 都 是 空 的 ) ， 那 么 这 
个 部 分 也 为 空 ， 长 度 为 0 字 节 。 


如果 服务 器 的 数据 库 状 态 为 非 空 《有 至 少 一 个 数据 库 非 空 ) ， 那 
么 这 个 部 分 也 为 非 衬 ， 根 据 数据 库 所 保存 键 值 对 的 数量 、 类 型 和 内 容 个 
同 ， 这 个 部 分 的 长 度 也 会 有 所 不 同 。 


EOF 常 量 的 长 度 为 1 字 节 ， 这 个 常量 标志 着 RDB 文 件 正 文 内 容 的 结 
束 ， 当 读 入 程序 遇 到 这 个 值 的 时 候 ， 它 知道 所 有 数据 库 的 所 有 键 值 对 都 
已 经 载 入 完毕 了 。 


check_sum 是 一 个 8 字 节 长 的 无 符号 整数 ， 保 存 着 一 个 校 验 和 ， 这 个 
校 验 和 是 程序 通过 对 REDIS、db_version、databases、EOF 四 个 部 分 的 内 
容 进 行 计算 得 出 的 。 服 务 器 在 载 入 RDB 文 件 时 ， 会 将 载 入 数据 所 计算 出 
的 校 验 和 与 check_sum 所 记录 的 校 验 和 进行 对 比 ， 以 此 来 检查 RDB 文 件 
是 否 有 出 错 或 者 损坏 的 情况 出 现 。 


作为 例子 ， 图 10-11 展 示 了 一 个 databases 部 分 为 空 的 RDB 文 件 : 文 
件 开 头 的 "REDIS" 表 示 这 是 一 个 RDB 文 件 ， 之 后 的 "0006" 表 示 这 是 第 六 
版 的 RDB 文 件 ， 因 为 databases 为 宇 ， 所 以 版 本 号 之 后 直接 跟着 EOE 和 名 
量 ， 最 后 的 6265312314761917404 是 文件 的 校 验 和 。 























"0006" 6265312314761917404 


图 10-11 databases 部 分 为 空 的 RDB 文 件 





10.3.1 databases 部 分 
一 个 RDB 文 件 的 databases 部 分 可 以 保存 任意 多 个 非 空 数据 库 。 
例如 ， 如 果 服 务 器 的 0 号 数据 库 和 3 号 数据 库 非 室 ， 那 么 服务 器 将 创 


时 一 个 如 图 10-12 所 示 的 RDB 文 件 ， 图 中 的 database 0 代表 0 号 数据 库 中 的 
所 有 键 值 对 数据 ， 而 database 3 则 代表 3 与 数据库 中 的 所 有 键 值 对 数据 。 











REDIS database 0 | database 3 


图 10-12” 带 有 两 个 非 空 数据 库 的 RDB 文 件 示例 


每 个 非 空 数据 库 在 RDB 文 件 中 都 可 以 保存 为 SELECTDB、 
db_number、key_value_pairs 三 个 部 分 ， 如 图 10-13 所 示 。 


图 10-13 RDB 文 件 中 的 数据 库 结 构 


SELECTDB 季 量 的 长 度 为 1 字 节 ， 当 读 入 程序 遇 到 这 个 值 的 时 候 ， 
它 知道 接 下 来 要 读 入 的 将 是 一 个 数据 库 号 码 。 


db_number 保 存 着 一 个 数据 库 号 码 ， 根 据 号 码 的 大 小 不 同 ， 这 个 部 
分 的 长 度 可 以 是 1 字 节 、2 字 节 或 者 5 字 节 。 当 程序 读 入 db_number 部 分 之 
后 ， 服 务 器 会 调用 SELECT 命令 ， 根 据 读 入 的 数据 库 号 码 进行 数据 库 切 
换 ， 使 得 之 后 谈 入 的 键 值 对 可 以 载 入 到 正确 的 数据 库 中 。 

key_value_pairs 部 分 保存 了 数据 库 中 的 所 有 键 值 对 数据 ， 如 采 键 值 
对 带 有 过 期 时 间 ， 那 么 过 期 时 间 也 会 和 键 值 对 保存 在 一 起 。 根 据 键 值 对 
的 数量 、 类 型 、 内 容 以 及 是 否 有 过 期 时 间 等 条 件 的 不 同 ， 
key_value_pairs 部 分 的 长 度 也 会 有 所 不 同 。 


作为 例子 ， 图 10-14 展 示 了 RDB 文 件 中 ，0 号 数据 库 的 结构 。 
图 10-14 ”数据 库 结构 示例 


另外 ， 图 10-15 则 展示 了 一 个 完整 的 RDB 文 件 ， 文 件 中 包含 了 0 号 数 
据 库 和 3 号 数据 库 。 
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图 10-15 ”RDB 文件 中 的 数据 库 结 构 示例 


10.3.2 ”key_value_pairs 部 分 

RDB 文 件 中 的 每 个 key_value_pairs 部 分 都 保存 了 一 个 或 以 上 数量 的 
本 如 果 键 值 对 带 有 过 期 时 间 的 话 ， 那 么 键 值 对 的 过 期 时 间 也 会 被 
甩 仔 在 六 。 


不 带 过 期 时 间 的 键 值 对 在 RDB 文 件 中 由 TYPE、key、value 三 部 分 组 
成 ， 如 图 10-16 所 示 。 


图 10-16 不 带 过 期 时 间 的 键 值 对 
TYPE 记 录 了 value 的 类 型 ， 长 度 为 1 字 市 ， 值 可 以 是 以 下 常量 的 其 中 


| 
.REDIS_RDB_TYPE_STRING 
.REDIS_RDB_TYPE_LIST 
.REDIS_RDB_TYPE_SET 
:REDIS_RDB_TYPE_ZSET 
.REDIS_RDB_TYPE_HASH 
.REDIS_RDB_TYPE_LIST_ZIPLIST 
.REDIS_RDB_TYPE_SET_INTSET 
.REDIS_RDB_TYPE_ZSET_ZIPLIST 
.REDIS_RDB_TYPE_HASH_ZIPLIST 
以 上 列 出 的 每 个 TYPE 常 量 都 代表 了 一 种 对 象 类 型 或 者 底层 编码 ， 
当 服 务 器 读 入 RDB 文 件 中 的 键 值 对 数据 时 ， 程 序 会 根据 TYPE 的 值 来 决 


定 如 何 读 入 和 解释 value 的 数据 。key 和 value 分 别 保存 了 键 值 对 的 键 对 象 
和 值 对 象 : 








:其 中 key 总 是 一 个 字符 串 对 象 ， 它 的 编码 方式 和 
REDIS_RDB_TYPE_STRING 类 型 的 value 一 样 。 根 据 内 容 长 度 的 不 同 ， 
key 的 长 度 也 会 有 所 不 同 。 

.根据 TYPE 类 型 的 不 同 ， 以 及 保存 内 容 长 度 的 不 同 ， 保 存 value 的 结 
构 和 长 度 也 会 有 所 不 同 ， 本 市 稍 后 会 详细 说 明 每 种 TYPE 类 型 的 value 结 
构 保 存 方式 。 


带 有 过 期 时 间 的 键 值 对 在 RDB 文 件 中 的 结构 如 图 10-17 所 示 。 


图 10-17 带 有 过 期 时 间 的 键 值 对 


带 有 过 期 时 间 的 键 值 对 中 的 TYPE、key、value 三 个 部 分 的 意义 ， 和 
前 面 介绍 的 不 带 过 期 时 间 的 键 值 对 的 TYPE、key、value 三 个 部 分 的 意义 
完全 相同 ， 至 于 新 增 的 EXPIRETIME_MS 和 ms， 它 们 的 意义 如 下 : 








-EXPIRETIME_MS 常 量 的 长 度 为 1 字 征 ， 它 告知 读 入 程序 ， 接 下 来 
要 读 入 的 将 是 一 个 以 毫秒 为 单位 的 过 期 时 间 。 


ms 是 一 个 8 字 贡 长 的 带 符 号 整数 ， 记 录 独 一 个 以 坚 秒 为 单位 的 
UNIX 时 间 戳 ， 这 个 时 间 戳 束 是 键 值 对 的 过 期 时 间 。 


图 10-18 无 过 期 时 间 的 字符 串 键 值 对 示例 
作为 例子 ， 图 10-18 展 示 了 一 个 没有 过 期 时 间 的 字符 串 键 值 对 。 


图 10-19 展 示 了 一 个 带 有 过 期 时 间 的 集合 键 值 对 ， 其 中 键 的 过 期 时 
间 为 1388556000000 (2014 年 1 月 1 日 零 时 )。 


图 10-19 ” 带 有 过 期 时 间 的 集合 键 值 对 示例 
10.3.3 ”value 的 编码 





RDB 文 件 中 的 每 个 value 部 分 都 保存 了 一 个 值 对 象 ， 每 个 值 对 象 的 
类 型 都 由 与 之 对 应 的 TYPE 记 录 ， 根 据 类 型 的 不 同 ，value 部 分 的 结构 、 
长 度 也 会 有 所 不 同 。 


在 接 下 来 的 各 个 小 节 中 ， 我 们 将 分 别 介绍 各 种 不 同类 型 的 值 对 象 在 
RDB 文 件 中 的 保存 结构 。 
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本 节 接 下 来 说 到 的 各 种 REDIS ENCODING _* 编 码 曾 经 在 第 8 章 中 介 
绍 过 ， 如 果 忘 记 了 可 以 去 回顾 一 下 。 


1. 字 符 串 对 象 


如 果 TYPE 的 值 为 REDIS _ RDB _TYPE_STRING， 那 么 value 保 存 的 
束 是 一 个 字符 串 对 象 ， 字 符 串 对 象 的 编码 可 以 是 
REDIS ENCODING _ INT 或 者 REDIS ENCODING RAW。 


如 果 字 符 捉 对 象 的 编码 为 REDIS ENCODING INT， 那 么 说 明 对 象 


中 保存 的 是 长 度 不 超过 32 位 的 整数 ， 这 种 编码 的 对 象 将 以 图 10-20 所 未 
的 结构 保存 。 


其 中 ，ENCODING 的 值 可 以 是 REDIS_RDB_ENC_INT8、 
REDIS_RDB_ENC _INT16 或 者 REDIS RDB_ENC INT32 三 个 常量 的 其 
中 一 个 ， 它 们 分 别 代表 RDB 文 件 使 用 8 位 (bit) 、16 位 或 者 32 位 来 保存 
整数 信 integer. 


举 个 例子 ， 如 果 字 符 串 对 象 中 保存 的 是 可 以 用 8 位 来 保存 的 整数 
123， 那 么 这 个 对 象 在 RDB 文 件 中 保存 的 结构 将 如 图 10-21 所 示 。 


图 10-20” INT 编码 字符 串 对 象 的 保存 结构 


REDIS RDB ENC INT8 | 123 








图 10-21 用 8 位 来 保存 整数 的 例子 
如 果 字 符 串 对 象 的 编码 为 REDIS_ENCODING_ RAW， 那么 说 明 对 
象 所 保存 的 是 一 个 字符 串 值 ， 根 据 字 符 串 长 度 的 不 同 ， 有 压缩 和 不 压缩 
两 种 方法 来 保存 这 个 字符 串 : 


-如果 字符 串 的 长 度 小 于 等 于 20 字 节 ， 那 么 这 个 字符 串 会 直接 被 原 
样 保存 。 


如果 字符 串 的 长 度 大 于 20 字 节 ， 那 么 这 个 字符 串 会 被 压缩 之 后 再 





保存 


mn 
| ww\ 
全 | 


、_ 人 /注意 

以 上 两 个 条 件 是 在 假设 服务 器 打开 了 RDB 文 件 压缩 功能 的 情况 下 进 
行 的 ， 如 果 服 务 器 关闭 了 RDB 文 件 压缩 功能 ， 那 么 RDB 程 序 总 以 无 压缩 
的 方式 保存 字符 串 值 。 


具体 信息 可 以 参考 redis.conf 文 件 中 关于 rdbcompression 选 项 的 说 
明 。 


对 于 没有 被 压缩 的 字符 串 ，RDB 程 序 会 以 图 10-22 所 示 的 结构 来 保 


存 该 字符 串 。 
图 10-22 ”无 压缩 字符 串 的 保存 结构 


其 中 ，string 部 分 保存 了 字符 串 值 本 身 ， 而 len 保 存 了 字符 串 值 的 长 
度 。 对 于 压缩 后 的 字符 串 ，RDB 程 序 会 以 图 10-23 所 示 的 结构 来 保存 该 


字符 串 。 





REDIS RDB ENC L2F compressed string 





图 10-23 ”压缩 后 字符 串 的 保存 结构 








其 中 ，REDIS_RDB_ENC_LZF 铅 量 标志 痢 字 符 串 已 经 被 LZF 算 法 
Chttp:VWliblzf.plan9.de) 压缩 过 了 ， 读 入 程序 在 碰 到 这 个 音量 时 ， 会 根据 
之 后 的 compressed_len、origin_len 和 compressed_string 三 部 分 ， 对 字符 串 
进行 解压 缩 : 其 中 compressed_len 记 录 的 是 字符 串 被 压缩 之 后 的 长 度 ， 
而 origin_len 记 录 的 是 字符 串 原来 的 长 上 度 ，compressed_string 记 录 的 则 是 
被 压缩 之 后 的 字符 串 。 


图 10-24 展 示 了 一 个 保存 无 压缩 字符 串 的 例子 ， 其 中 字符 串 的 长 度 
为 5， 字 符 串 的 值 为 "hello"。 


图 10-25 展 示 了 一 个 压缩 后 的 字符 串 示例 ， 从 图 中 可 以 看 出 ， 字 符 
捉 原 本 的 长 度 为 21， 压 缩 之 后 的 长 度 为 6 压缩 之 后 的 字符 串 内 容 为 "? 
aa???"， 其 中 ?代表 的 是 无 法 用 字符 串 形式 打印 出 来 的 字 市 。 


图 10-24 无 压缩 的 字符 串 


DR pve rar | 6 | 21] "aan77™ 


图 10-25 ”压缩 后 的 字符 串 





2. 列 表 对 象 


如 果 TYPE 的 值 为 REDIS_ RDB_TYPE_LIST， 那 么 value 保 存 的 就 是 
一 个 REDIS_ENCODING_LINKEDLIST 编 码 的 列表 对 象 ，RDB 文 件 保存 
这 种 对 象 的 结构 如 图 10-26 所 示 。 





图 10-26 LINKEDLIST 编 码 列 表 对 象 的 保存 结构 


list_length 记 录 了 列表 的 长 度 ， 它 记录 列表 保存 了 多 少 个 项 
(item) ， 读 入 程序 可 以 通过 这 个 长 度 知道 自己 应 该 读 入 多 少 个 列表 
项 。 





图 中 以 item 开 头 的 部 分 代表 列表 的 项 ， 因 为 每 个 列表 项 都 是 一 个 字 
符 串 对 象 ， 所 以 程序 会 以 处 理 字 符 串 对 象 的 方式 来 保存 和 读 入 列表 项 。 


作为 示例 ， 图 10-27 展 示 了 一 个 包含 三 个 元 素 的 列表 。 
Ts Toros [woria" [1 Te” 
图 10-27 保存 LINKEDLIST 编 码 列表 的 例子 


结构 中 的 第 一 个 数字 3 是 列表 的 长 度 ， 之 后 跟着 的 分 别 是 第 一 个 列 
表 项 、 第 二 个 列表 项 和 第 三 个 列表 项 ， 其 中 : 


第 一 个 列表 项 的 长 度 为 5， 内 容 为 字符 串 "hello"。 
:第 二 个 列表 项 的 长 度 也 为 5， 内 容 为 字符 串 "world"。 
:第 三 个 列表 项 的 长 度 为 1， 内 容 为 字符 串 "!" 

3. 集 合 对 象 


如 果 TYPE 的 值 为 REDIS_ RDB _TYPE SET， 那么 value 保 存 的 就 是 
一 个 REDIS_ENCODING_HT 编 码 的 集合 对 象 ，RDB 文 件 保存 这 种 对 象 
的 结构 如 图 10-28 所 示 。 


ee ae] elem | ererz [| ciemm 


图 10-28 ”HT 编码 集合 对 象 的 保存 结构 


其 中 ，set_size 是 集合 的 大 小 ， 它 记录 集合 保存 了 多 少 个 元 素 ， 读 入 
程序 可 以 通过 这 个 大 小 知道 自己 应 该 访 入 多 少 个 集合 元 素 。 


图 中 以 elem 开 头 的 部 分 代表 集合 的 元 素 ， 因 为 每 个 集合 元 素 都 是 一 
象 ， 所 以 程序 会 以 处 理 字符 串 对 象 的 方式 来 保存 和 读 入 集合 
刀 条 。 


作为 示例 ， 图 10-29 展 示 了 一 个 包含 四 个 元 系 的 集合 。 
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图 10-29 ”保存 HT 编码 集合 的 例子 


结构 中 的 第 一 个 数字 4 记录 了 集合 的 大 小 ， 之 后 跟着 的 是 集合 的 四 


个 元 素 : 

第 一 个 元 素 的 长 度 为 5， 值 为 "apple"。 

-第 二 个 元 系 的 长 度 为 6， 值 为 "banana"。 

-第 三 个 元 素 的 长 度 为 9， 值 为 "cat"。 

第 四 个 元 素 的 长 度 为 9， 值 为 "dog"。 

4. 哈 希 表 对 象 

如 果 TYPE 的 值 为 REDIS_ RDB_TYPE_HASH， 那 么 value 保 存 的 就 
是 一 个 REDIS_ENCODING_HT 编 码 的 集合 对 象 ，RDB 文 件 保存 这 种 对 
象 的 结构 如 图 10-30 所 示 : 


hash_size 记 录 了 哈 希 表 的 大 小 ， 也 即 是 这 个 哈 希 表 保 存 了 多 少 键 
值 对 ， 读 入 程序 可 以 通过 这 个 大 小 知道 目 己 应 该 读 入 多 少 个 键 值 对 。 


:以 key_value_pair 开 头 的 部 分 代表 哈 希 表 中 的 键 值 对 ， 键 值 对 的 键 
0 0 
计 。 
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图 10-30 ”HT 编码 哈 希 表 对 象 的 保存 结构 


00 86 
31 所 不 。 


EEC 
图 10-31 键 值 对 的 保存 结构 


因此 ， 从 更 详细 的 角度 看 ， 图 10-30 所 展示 的 结构 可 以 进一步 修改 
为 图 10-32。 
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图 10-32 ”更 详细 的 HT 编码 哈 希 表 对 象 的 保存 结构 
作为 示例 ， 图 10-33 展 示 了 一 个 包含 两 个 键 值 对 的 哈 希 表 。 
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图 10-33 ”保存 HT 编码 哈 希 表 的 例子 


在 这 个 示例 结构 中 ， 第 一 个 数字 2 记录 了 哈 希 表 的 键 值 对 数量 ， 之 
后 跟着 的 是 两 个 键 值 对 : 


:第 一 个 键 值 对 的 键 是 长 度 为 1 的 字符 串 "a"， 值 是 长 度 为 5 的 字符 
串 "apple"。 

:第 二 个 键 值 对 的 键 是 长 度 为 1 的 字符 串 "b"， 值 是 长 度 为 6 的 字符 
串 "banana"。 


5. 有 订 集 合 对 象 


如 果 TYPE 的 值 为 REDIS_RDB_TYPE_ZSET， 那 么 value 保 存 的 就 是 
一 个 REDIS_ENCODING_SKIPLIST 编 码 的 有 序 集合 对 象 ，RDB 文 件 保 
存 这 种 对 象 的 结构 如 图 10-34 所 示 。 
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图 10-34 ”SKIPLIST 编 码 有 序 集合 对 象 的 保存 结构 


sorted_set_size 记 录 了 有 序 集合 的 大 小 ， 也 即 是 这 个 有 序 集 合 保 存 了 
多 少 元 素 ， 读 入 程序 需要 根据 这 个 值 来 决定 应 该 读 入 多 少 有 序 集合 元 














济 





以 element 开 头 的 部 分 代表 有 序 集合 中 的 元 素 ， 每 个 元 素 又 分 为 成 员 
(member) 和 分 值 (score〉 两 部 分 ， 成 员 是 一 个 字符 串 对 象 ， 分 值 则 
是 一 个 double 类 型 的 浮 点 数 ， 程 序 在 保存 RDB 文 件 时 会 先 将 分 值 转换 成 
字符 串 对 象 ， 然 后 再 用 保存 字符 串 对 象 的 方法 将 分 值 保存 起 来 。 





的 每 个 元 素 都 以 成 员 紧 挨 看 分 值 的 方式 排列 ， 如 图 10- 
35 所 不 。 


memberl | scorel | member2 | score2?2 | member3 score3 | 


图 10-35 成员 和 分 值 的 保存 结构 


因此 ， 从 更 详细 的 角度 看 ， 图 10-34 所 展示 的 结构 可 以 进一步 修改 
为 图 10-36。 





图 10-36 ”更 详细 的 SKIPLIST 编 码 有 序 集合 对 象 的 保存 结构 
作为 示例 ， 图 10-37 展 示 了 一 个 带 有 两 个 元 素 的 有 序 集合 。 
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图 10-37 ”保存 SKIPLIST 编 码 有 序 集合 的 例子 


在 这 个 示例 结构 中 ， 第 一 个 数字 2 记录 了 有 序 集合 的 元 素数 量 ， 之 
后 跟着 的 是 两 个 有 序 集合 元 素 : 


:第 一 个 元 素 的 成 员 是 长 度 为 2 的 字符 串 "pi"， 分 值 被 转换 成 字符 串 
之 后 变 成 了 长 度 为 4 的 字符 串 "3.14"。 


第 二 个 元 素 的 成 员 是 长 度 为 1 的 字符 串 "e"， 分 值 被 转换 成 字符 串 之 
后 变 成 了 长 度 为 3 的 字符 串 "2.7"。 


6.INTSET 编 码 的 集合 








如 果 TYPE 的 值 为 REDIS_ RDB _ TYPE SET _INTSET， 那 么 value 保 
存 的 就 是 一 个 整数 集合 对 象 ，RDB 文 件 保存 这 种 对 象 的 方法 是 ， 先 将 整 
ee 然后 将 这 个 字符 串 对 象 保存 到 RDB 文 件 里 


如 果 程 序 在 读 入 RDB 文 件 的 过 程 中 ， 碰 到 由 整数 集合 对 象 转换 成 的 
字符 串 对 象 ， 那 么 程序 会 根据 TYPE 值 的 指示 ， 先 读 入 字符 串 对 象 ， 再 


将 这 个 字符 串 对 象 转换 成 原来 的 整数 集合 对 象 。 
7.ZIPLIST 编 码 的 列表 、 哈 希 表 或 者 有 序 集合 


如 果 TYPE 的 值 为 REDIS_ RDB_ TYPE LIST_ZIPLIST、 
REDIS RDB TYPE HASH _ZIPLIST 或 者 
REDIS_RDB_TYPE_ZSET_ZIPLIST， 那 么 value 保 存 的 就 是 一 个 压缩 列 
表 对 象 ，RDB 文 件 保存 这 种 对 象 的 方法 是 : 


1) 将 压缩 列表 转换 成 一 个 字符 串 对 象 。 
2) 将 转换 所 得 的 字符 串 对 象 保存 到 RDB 文 件 。 


如 果 程 序 在 读 入 RDB 文 件 的 过 程 中 ， 碰 到 由 压缩 列表 对 象 转换 成 的 
字符 串 对 象 ， 那 么 程序 会 根据 TYPE 值 的 指示 ， 执 行 以 下 操作 : 


1) 读 入 字符 哩 对 象 ， 并 将 它 转 换 成 原来 的 压缩 列表 对 象 。 


2) 根据 TYPE 的 值 ， 设 置 压缩 列表 对 象 的 类 型 : 如 果 TYPE 的 值 为 
REDIS_ RDB_TYPE_LIST_ZIPLIST， 那 么 压缩 列表 对 象 的 类 型 为 列表 ; 
如 果 TYPE 的 值 为 REDIS RDB_ TYPE _ HASH ZIPLIST， 那 么 压缩 列表 
对 象 的 类 型 为 哈 希 表 ; 如 果 TYPE 的 值 为 
REDIS_ RDB_TYPE_ZSET_ZIPLIST， 那 么 压缩 列表 对 象 的 类 型 为 有 序 
集合 。 


从 步骤 2 可 以 看 出 ， 由 于 TYPE 的 存在 ， 即 使 列表 、 哈 希 表 和 有 序 集 
合 三 种 类 型 都 使 用 压缩 列表 来 保存 ，RDB 读 入 程序 也 总 可 以 将 读 入 并 转 
换 之 后 得 出 的 压缩 列表 设置 成 原来 的 类 型 。 





10.4 分 析 RDB 文 件 


通过 上 一 节 对 RDB 文 件 的 介绍 ， 我 们 现在 应 该 对 RDB 文 件 中 的 各 种 
内 容 和 结构 有 一 定 的 了 解 了 ， 是 时 候 抛 开 单 纯 的 图 片 示 例 ， 开 始 分 析 和 
观察 一 下 实际 的 RDB 文 件 了 。 


我 们 使 用 od 命令 来 分 析 Redis 服 务 器 产生 的 RDB 文 件 ， 该 命令 可 以 
用 给 定 的 格式 转 存 Cdump) 并 打印 输入 文件 。 比 如 说 ， 给 定 -c 参 数 可 以 
以 ASCII 编 码 的 方式 打印 输入 文件 ， 给 定 -x 参 数 可 以 以 十 六 进 制 的 方式 
打印 输入 文件 ， 诸 如 此 类 ， 具 体 的 信息 可 以 参考 od 命令 的 文档 。 


10.4.1 不 包含 任何 键 值 对 的 RDB 文 件 


让 我 们 首先 从 最 简单 的 情况 开始 ， 执 行 以 下 命令 ， 创 建 一 个 数据 库 
状态 为 空 的 RDB 文 件 : 








redis> FLUSHALL 
0 

redis> SAVE 

OK 


然后 调用 od 命 令 ， 打 印 RDB 文 件 : 





$ od dump.rdb 
9000000 REDISESEEE377 334 263C .360 .2 334 
0000020 362 V 


根据 之 前 学 习 的 RDB 文 件 结构 知识 ， 当 一 个 RDB 文 件 没 有 包含 任何 
数据 库 数据 时 ， 这 个 RDB 文 件 将 由 以 下 四 个 部 分 组 成 : 
:五 个 字 节 的 "REDIS" 字 符 串 。 


:四 个 字 节 的 版 本 与 (db_version) 。 





一 个 字 节 的 EOF 常 量 。 


. 八 个 字 节 的 校 验 和 (check_sum) 。 


从 od 命 令 的 输出 中 可 以 看 到 ， 最 开头 的 是 “REDIS” 字 符 串 ， 之 后 的 
0006 是 版 本 号 ， 再 之 后 的 一 个 字 节 377 代 表 EOF 常 量 ， 最 后 的 334 263 C 
360 Z 334 362 V 八 个 字 节 则 代表 RDB 文 件 的 校 验 和 。 

10.4.2 ”包含 字符 串 键 的 RDB 文 件 


这 次 我 们 来 分 析 一 个 带 有 单个 字符 串 键 的 数据 库 : 





redis> FLUSHALL 
OK 
redis> SET MSG "HELLO" 


redis> SAVE 
K 








$od -c dump.rd 
9000000 R E 
0000020 005 H 
0000037 


D， 工 - 号 .得 0 9 6 376 \0 \0 003 M S 6 
E L L 0377207 z = 304 f T L 343 





根据 之 前 学 习 的 数据 库 结 构 知 识 ， 当 一 个 数据 库 被 保存 到 RDB 文 件 
时 ， 这 个 数据 库 将 由 以 下 三 部 分 组 成 : 


个 一 字 节 长 的 特殊 值 SELECTDB。 


一 个 长 度 可 能 为 一 字 节 、 两 字 节 或 者 五 字 节 的 数据 库 号 码 
(db number) 。 


一 个 或 以 上 数量 的 键 值 对 (key_value_pairs) 。 

观察 od 命令 打印 的 输出 ，RDB 文 件 的 最 开始 仍然 是 REDIS 和 版 本 号 
0006， 之 后 出 现 的 376 代 表 SELECTDB 常 量 ， 再 之 后 的 \0 代 表 整 数 0， 表 
示 被 保存 的 数据 库 为 0 号 数据 库 。 


在 数据 库 号 码 之 后 ， 直 到 代表 EOF 常 量 的 377 为 止 ，RDB 文 件 包 含 
有 以 下 内 容 : 














\0 003 MSG 005 HELLO 





根据 之 前 学 习 的 键 值 对 结构 知识 ， 在 RDB 文 件 中 ， 没 有 过 期 时 间 的 
键 值 对 由 类 型 (TYPE) 、 键 (key) 、 值 (value) 三 部 分 组 成 : 其 中 类 
型 的 长 度 为 一 字 节 ， 键 和 值 都 是 字符 串 对 象 ， 并 且 字 符 串 在 未 被 压缩 
前 ， 都 是 以 字符 串 长 度 为 前 级 ， 后 跟 字符 串 内 容 本 里 的 方式 来 储存 的 。 


根据 这 些 特征 ， 我 们 可 以 确定 \0 就 是 字符 串 类 型 的 TYPE 值 
REDIS_RDB_TYPE_STRING (这 个 常量 的 实际 值 为 整数 0) ， 之 后 的 
003 是 键 MSG 的 长 度 值 ， 再 之 后 的 005 则 是 值 HELLO 的 长 度 。 

10.4.3 ”包含 带 有 过 期 时 间 的 字符 串 键 的 RDB 文 件 


现在 ， 让 我 们 来 创建 一 个 带 有 过 期 时 间 的 字符 串 键 : 














redis> FLUSHALL 

OK 

redis> SETEX MSG 10086 "HELLO" 
OK 

redis> SAVE 

OK 





打印 RDB 文 件 : 





$ dump.rdb 

QO000000 R E D I 号 9 9 
9000020 @ 001 \9 \90 \Q 003 M S 
0000040 212 231 x 247 252 } 921 306 
Q000050 


8 Ba 0 374 % 2 385 336 
G 005 H EE EE- 二 0 377 








根据 之 前 学 习 的 键 值 对 结构 知识 ， 一 个 市 有 过 期 时 间 的 键 值 对 将 由 
以 下 部 分 组 成 : 


个 一 字 节 长 的 EXPIRETIME_MS 特 殊 值 。 
一 个 八字 节 长 的 过 期 时 间 (ms) 。 


一 个 一 字 节 长 的 类 型 (TYPE) 。 








一 个 键 (key) 和 一 个 值 (value) 。 
根据 这 些 特征 ， 可 以 得 出 RDB 文 件 各 个 部 分 的 意义 : 


-REDIS0006: RDB 文 件 标 志和 版 本 号 。 


:376\0: 切换 到 0 号 数据 库 。 
.374: 代表 特殊 值 EXPIRETIME_MS。 
\2 365 336@001\0\0: 代表 八字 市 长 的 过 期 时 间 。 


\0 003 M S G: \0 表 示 这 是 一 个 字符 串 键 ，003 是 键 的 长 上 度 ，MSG 
日 
是 键 。 


-005 HELLO: 005 是 值 的 长 度 ，HELLO 是 值 。 

-377: 代表 EOF 常 量 。 

.212 231 x 247 252 } 021 306: 代表 八字 节 长 的 校 验 和 。 
10.4.4 包含 一 个 集合 键 的 RDB 文 件 

最 后 ， 让 我 们 试 试 在 RDB 文 件 中 包含 集合 键 : 





redis> FLUSHALL 
OK 


redis> SADD LANG "C" "JAVA" "RUBY" 
3 





打印 输出 如 下 : 





$ od -c dump.rdb 
9000000 R E D 下 S$ 6 0 
9000020 G 003 004 R UB Y 00 


ao 


376 \0 002 004 L A N 
A V A 0015C 377 202 

©0000040 312 r 352 346 305 * 9023 

0000047 





以 下 是 RDB 文 件 各 个 部 分 的 意义 : 
.REDIS0006: RDB 文 件 标志 和 版 本 号 。 
.376\0: 切换 到 0 号 数据 库 。 
介 党 量 


.002 004 L A N G: 002 是 常量 REDIS _ RDB_TYPE_SET (这 个 常量 
的 实际 值 为 整数 2) ， 表 示 这 是 一 个 哈 希 表 编 码 的 集合 键 ，004 表 示 键 的 








长 度 ，LANG 是 键 的 名 字 。 
-003: 集合 的 大 小 ， 说 明 这 个 集合 包含 三 个 元 素 。 
-004 RU BY: 集合 的 第 一 个 元 系 。 
-004J AV A: 集合 的 第 二 个 元 素 。 
-001 C: 集合 的 第 三 个 元 素 。 
-377: 代表 常量 EOF。 
202 312r 352 346 305*023: 代表 校 验 和 。 

10.4.5 ”关于 分 析 RDB 文 件 的 说 明 


因为 Redis 本 身高 有 RDB 文 件 检 查 工具 redis-check-dump， 网 上 也 能 
找到 很 多 处 理 RDB 文 件 的 工具 ， 所 以 人 工分 析 RDB 文 作 的 扩容 并 个 是 学 
习 Redis 所 必须 掌握 的 技能 。 


不 过 从 学 习 RDB 文 件 的 角度 来 看 ， 人 工分 析 RDB 文 件 是 一 个 不 错 的 
练习 ， 这 种 练习 可 以 帮助 我 们 熟悉 RDB 文 件 的 结构 和 格式 ， 如 果 读 者 有 
兴趣 的 话 ， 可 以 在 理解 本 章 的 内 容 之 后 ， 适 当地 尝试 一 下 。 

了 最 后 要 提醒 的 十 ， 前 面 我 们 一 下 用 od 命 令 配 合 -c 参 数 来 打印 RDB 文 


件 ， 因 为 使 用 ASCII 编 码 打 印 RDB 文 件 可 以 很 容易 地 发 现 文件 中 的 字符 
串 内 容 。 
但 是 ， 对 于 RDB 文 件 中 的 数字 值 ， 比 如 校 验 和 来 说 ， 通 过 ASCII 编 


人 码 来 打印 它 并 不 容易 看 出 它 的 真实 值 ， 更 好 的 办 法 是 使 用 -cx 参数 调用 
od 命令 ， 同 时 以 ASCII 编 码 和 十 六 进 制 格式 打印 RDB 文 件 : 











$ od -cx dump.rdb 
O00000 R ED IS 60 8 6 377 334 263 C 366 Z334 
4552 4944 3053 3030 ff36 b3dc f04 dc5 
0000020 362 V 
2 


0000022 





现在 可 以 从 输出 中 看 出 ，RDB 文 件 的 校 验 和 为 0x 56f2 dc5a f043 
b3dc〔 校 验 和 以 小 端 方式 保存 )， 这 比 用 ASCII 编 码 打 印 出 来 的 334 263 


C360 Z 334 362 V 要 清晰 得 多 ， 后 者 看 起 来 就 像 乱码 一 样 。 





10.5 重点 回顾 
攻 .RDB 文 件 用 于 保存 和 还 原 Redis 服 务 器 所 有 数据 库 中 的 所 有 键 值 对 








SAVE 命令 由 服务 器 进程 直接 执行 保存 操作 ， 所 以 该 命令 会 阻塞 服 
复 。 


.BGSAVE 令 由 子 进程 执行 保存 操作 ， 所 以 该 命令 不 会 阻塞 服务 








-服务 天 状态 中 会 保存 历 有 用 save 迄 项 设置 的 保存 条 件 ， 当 任意 一 个 
保存 条 件 被 满足 时 ， 服 务 器 会 自动 执行 BGSAVE 命 令 。 


:RDB 文 件 是 一 个 经 过 压缩 的 二 进 制 文件 ， 由 多 个 部 分 组 成 。 


| .对 于 不 同类 型 的 键 值 对 ，RDB 文 件 会 使 用 不 同 的 方式 来 保存 它 
[Js 





10.6 ”参考 资料 


Sripathi Krishnan 编 写 的 《Redis RDB 文 件 格 式 》 文 档 以 文字 的 形式 
详细 记录 了 RDB 文 件 的 格式 ， 如 果 想 深入 理解 RDB 文 件 ， 或 者 为 RDB 文 
件 编写 分 析 / 载 入 程序 ， 那 么 这 篇 文档 会 是 很 好 的 参考 资料 : 
https://github.com/sripathikrishnan/redis-rdb-tools/wiki/Redis-RDB-Dump- 
File-Format。 


“Sripathi ”Krishnan 编 写 的 《Redis RDB 版 本 历史 》 也 详细 地 记录 了 
RDB 文 件 在 各 个 版 本 中 的 变化 ， 因 为 本 章 只 介绍 了 Redis 2.6 或 以 上 版 本 
目前 正在 使 用 的 第 六 版 RDB 文 件 ， 而 没有 对 其 他 版 本 的 RDB 文 件 进行 介 
绍 ， 所 以 如 果 读 者 对 RDB 文 件 的 演进 历史 感 兴趣 ， 或 者 要 处 理 不 同 版 本 
的 RDB 文 件 的 话 ， 那 么 这 篇 文档 会 是 很 好 的 资料 : 
https://github.com/sripathikrishnan/redis- 
rdbtools/blob/master/docs/RDB_Version_ History.textile。 


.Redis 作 者 的 博文 《Redis persistence ”demystified》 很 好 地 解释 了 
Redis 的 持久 化 功能 和 其 他 常见 数据 库 的 持久 化 功能 之 间 的 异同 ， 非 常 
值得 一 读 : http://oldblog.antirez.com/post/redispersistence- 
demystified.html，NoSQLFan 网 站 上 有 这 篇 文章 的 翻译 版 《解密 Redis 持 
久 化 》: http://blog.nosqlfan.com/html/3813.html。 


第 11 童 AOF 持 久 化 


除了 RDB 持 久 化 功能 之 外 ，Redis 还 提供 了 AOF (Append Only 
File) 持久 化 功能 。 与 RDB 持 久 化 通过 保存 数据 库 中 的 键 值 对 来 记录 数 
据 库 状态 不 同 ，AOF 持 久 化 是 通过 保存 Redis 服 务 器 所 执行 的 写 命令 来 
记录 数据 库 状态 的 ， 如 图 11-1 所 示 。 








发 送 写 保存 被 执行 
~ yt 人 





图 11-1 AOF 持 久 化 


举 个 例子 ， 如 果 我 们 对 空白 的 数据 库 执行 以 下 写 命 令 ， 那 么 数据 库 
中 将 包含 三 个 键 值 对 : 








redis> SET msg "hello" 

OK 

redis> SADD fruits "apple" "banana" "cherry" 
(integer) 3 

redis> RPUSH numbers 128 256 512 

(integer) 3 








RDB 持 久 化 保存 数据 库 状 态 的 方法 是 将 msg、fruits、numbers 三 个 
键 的 键 值 对 保存 到 RDB 文 件 中 ， 而 AOF 持 久 化 保存 数据 库 状态 的 方法 则 
是 将 服务 器 执行 的 SET、SADD、RPUSH 三 个 命令 保存 到 AOF 文 件 中 。 


被 写 入 AOF 文 件 的 所 有 命令 都 是 以 Redis 的 命令 请 求 协 议 格 式 保存 
的 ， 因 为 Redis 的 命令 请 求 协 议 是 纯 文本 格式 ， 所 以 我 们 可 以 直接 打开 
一 个 AOF 文 件 ， 观 察 里 面 的 内 容 。 


例如 ， 对 于 之 前 执行 的 三 个 写 命令 来 说 ， 服 务 器 将 产生 包含 以 下 内 
容 的 AOF 文 件 : 








*2\r\N$6\r\nSELECT\r\n$1\r\nO\r\n 
*3\r\n$3\r\nSET\r\n$3\r\nmsg\r\n$5 
*5\r\n$4\r\nSADD\r\n$6\r\nfruits\ 

be 


F 
rn r\nbanana\r\n$6\r\ncherry\r\n 
*5\r\n$5\r\nRPUSH\r\n$7\r\nnumbers\r 256\r\n$3\r\n512\r\n 








在 这 个 AOF 文 件 里 面 ， 除 了 用 于 指定 数据 库 的 SELECT 命令 是 服务 
器 自动 添加 的 之 外 ， 其 他 都 是 我 们 之 前 通过 客户 端 发 送 的 命令 。 


服务 器 在 启动 时 ， 可 以 通过 载 入 和 执行 AOF 文 件 中 保存 的 命令 来 还 
原 服 务 器 关闭 之 前 的 数据 库 状 态 ， 以 下 区 是 服务 器 载 入 AOF 文 件 并 还 原 
数据 库 状态 时 打印 的 日 志 : 








[8321] 95 Sep 11:58:50.448 # Se ed ver SY 
[8321] 05 Sep 11:58:50.449 * DB 1 ade ed re appen on y 人 le: 本 oo secon a 
[8321] 95 Sep 11:58:50.449 * The eady t cept ections on port 6379 





在 本 间接 下 来 的 内 容 中 ， 我 们 将 对 AOF 持 久 化 功能 的 实现 进行 介 
绍 ， 说 明 AOF 文 件 的 写 入 、 保 存 、 载 入 等 操作 的 实现 原理 。 


之 后 我 们 还 会 介绍 用 于 减少 AOF 文 件 体 积 的 AOF 重 写 功 能 ， 以 及 该 
功能 的 实现 原理 。 


11.1 AOF 持 久 化 的 实现 


AOF 持 久 化 功能 的 实现 可 以 分 为 命令 退 加 (append) 、 文 件 写 入 、 
文件 同步 (sync) 三 个 步 又 。 


11.1.1 命令 追加 
当 AOF 持 久 化 功能 处 于 打开 状态 时 ， 服 务 器 在 执行 完 一 个 写 命令 之 


后 ， 会 以 协议 格式 将 被 执行 的 写 命令 退 加 到 服务 大 状态 的 aof_buf 缓 冲 区 
的 末尾 : 





struct redisServer { 
// 


// AOF 
缓冲 区 





sds aof_buf; 
1/ 


}; 





举 个 例子 ， 如 果 客 户 端 向 服务 嚣 发送 以 下 命令 





redis> SET KEY VALUE 
OK 





那么 服务 器 在 执行 这 个 SET 命令 之 后 ， 会 将 以 下 协议 内 容 追 加 到 
aof_buf 绥 冲 区 的 末尾 : 








*3\r\Nn$3\r\nSET\r\n$3\r\nKEY\r \n$5\r\nVALUE\r\n 





又 例如 ， 如 果 客 户 端 同 服 务 器 发 送 以 下 命令 





redis> RPUSH NUMBERS ONE TWO THREE 
(integer) 








那么 服务 器 在 执行 这 个 RPUSH 命 令 之 后 ， 会 将 以 下 协议 内 容 追 加 
到 aof_buf 绥 冲 区 的 末尾 : 





*5\r\n$5\r\NnRPUSH\r \N$7\r\NNUMBERS\r \n$3\r\nONE\r\n$3\r\nTWO\r\n$5\r\nTHREE\r\n 


以 上 束 是 AOF 持 久 化 的 命令 妃 加 步骤 的 实现 原理 。 
11.1.2 AOF 文 件 的 写 入 与 同步 


Redis 的 服务 器 进程 就 是 一 个 事件 循环 〈loop) ， 这 个 循环 中 的 文件 
事件 负责 接收 客户 端的 命令 请 求 ， 以 及 同 客 户 端 发 送 命令 回复 ， 而 时 间 
事件 则 负责 执行 像 serverCron 函 数 这 样 需 要 定时 运行 的 函数 。 


因为 服务 器 在 处 理 文件 事件 时 可 能 会 执行 写 命令 ， 使 得 一 些 内 容 被 
追加 到 aof_buf 绥 冲 区 里 面 ， 所 以 在 服务 器 每 次 结束 一 个 事件 循环 之 前 ， 
它 都 会 调用 flushAppendOnlyFile 函 数 ， 考 虑 是 否 需 要 将 aof_buf 绥 冲 区 中 
的 内 容 写 入 和 保存 到 AOF 文 件 里 面 ， 这 个 过 程 可 以 用 以 下 伪 代 码 表示 : 














def eventLoop(): 
while True: 


# 
处 理 文件 事件 ， 接 收 命令 请 求 以 及 发 送 命令 回复 


处 理 命令 请 求 时 可 能 会 有 新 内 容 被 追加 到 aof_buf 
爱 冲 区 中 





processFileEvents() 


# 
处 理 时 间 事 件 

processTimeEvents() 
虑 是 否 要 将 aof_buf 
守则 国 全 号 人 和 保存 到 AOF 
文件 里 








flushAppendonlyFile() 





flushAppendOnlyFile 函 数 的 行为 由 服务 器 配置 的 appendfsync 选 项 的 
值 来 决定 ， 各 个 不 同 值 产生 的 行为 如 表 11-1 所 示 。 


表 11-1 不 同 appendfsync 值 产生 不 同 的 持久 化 行为 


appendfsync 选项 的 值 flushAppendOnlyFile 济 数 的 行为 
alWayS 将 aof buf 缓冲 区 中 的 所 有 内 容 写 人 并 同步 到 AOF 文件 


将 aof buf 缓冲 区 中 的 所 有 内 容 写 人 到 AOF 文件 ， 如 果 上 次 同步 AOF 文件 的 时 间 
everysec 中 离 现在 超过 一 秒 钟 ， 那 么 再 次 对 AOF 文件 进行 同步 ， 并 且 这 个 同步 操作 是 由 一 个 线 
程 专门 负责 执行 的 


将 aof_buf 缓冲 区 中 的 所 有 内 容 写 信 到 AOF 文件 ， 但 并 不 对 AOF 文件 进行 同步， 


各 N 间 步 出 所作 有 统 来 


如 果 用 户 没 有 主动 为 appendfsync 选 项 设置 值 ， 那 么 appendfsync 选 项 
的 默认 值 为 everysec， 关 于 appendfsync 选 项 的 更 多 信息 ， 请 参考 Redis 项 
目 附带 的 示例 配置 文件 redis.conf。 





文件 的 写 入 和 同步 





为 了 提高 文件 的 写 入 效率 ， 在 现代 操作 系统 中 ， 当 用 户 调用 
write 函 数 ， 将 一 些 数 据 写 入 到 文件 的 时 候 ， 操 作 系 统 通常 会 将 写 入 
数据 暂时 保存 在 一 个 内 存 缓冲 区 里 面 ， 等 到 缓冲 区 的 空间 被 填 满 、 
In 限 之 后 ， 才 真正 地 将 绥 冲 区 中 的 数据 写 入 到 磁 
S 里 


这 种 做 法 虽然 提高 了 效率 ， 但 也 为 写 入 数据 禹 来 了 安全 问题 ， 
因为 如 果 计 算 机 友 生 停机 ， 那 么 保存 在 内 存 绥 冲 区 里 面 的 写 入 数据 


1 


为 此 ， 系 统 提供 了 fsync 和 fdatasync 两 个 同步 函数 ， 它 们 可 以 强 
制 让 操作 系统 立即 将 缓冲 区 中 的 数据 写 入 到 人 硬盘 里 面 ， 从 而 确保 写 
入 数据 的 安全 性 。 











举 个 例子 ， 假 设 服务 器 在 处 理 文件 事件 期 间 ， 执 行 了 以 下 三 个 写 入 


命令 ; 


守 





1) SADD databa "Redis" "MongoDB" "MariaDB" 
2) SET da "2013- 9-5" 
3) INCR click_counter 10086 





那么 aof_buf 绥 种 区 将 包含 这 三 个 命令 的 协议 内 容 : 





*5\r\n$4\r\nsSADD\r\n$9\r\ndatabases\r Nrxn$5 NE 
*3\r\n$3\r\nSET\r\ dar ndate\ CnGa\r Nn2013 08 
*3\r\Nn$4\r\nINCR\r\n$13\ clic \r\in$5\r un ONE \n 





如 果 这 时 ftushAppendOnlyFile 函 数 被 调用 ， 假 设 服务 器 当前 
appendfsync 选 项 的 值 为 everysec， 并 且 距 离 上 次 同步 AOF 文 件 已 经 超过 
一 秒 钟 ， 那 么 服务 器 会 先 将 aof buf 中 的 内 容 写 入 到 AOF 文 件 中 ， 然 后 再 
对 AOF 文 件 进行 同步 。 


以 上 就 是 对 AOF 持 久 化 功能 的 文件 写 入 和 文件 同步 这 两 个 步 又 的 介 


绍 。 





AOF 持 久 化 的 效率 和 安全 性 


服务 器 配置 appendfsync 选 项 的 值 直接 决定 AOF 持 久 化 功能 的 效 
率 和 安全 性 。 


` 当 appendfsync 的 值 为 always 时 ， 服 务 器 在 每 个 事件 循环 都 要 将 
aof_buf 绥 冲 区 中 的 所 有 内 容 写 入 到 AOF 文 件 ， 并 且 同 步 AOF 文 件 ， 
所 以 always 的 效率 是 appendfsync 选 项 三 个 值 当 中 最 慢 的 一 个 ， 但 从 
安全 性 来 说 ，always 也 是 最 安全 的 ， 因 为 即使 出 现 故 障 停机 ，AOF 
持久 化 也 只 会 丢失 一 个 事件 循环 中 所 产生 的 命令 数据 。 


` 当 appendfsync 的 值 为 everysec 时 ， 服 务 器 在 每 个 事件 循环 都 要 
将 aof buf 缓冲 区 中 的 所 有 内 容 写 入 到 AOF 文 件 ， 并 且 每 隔 一 秒 瓯 要 
在 子 线程 中 对 AOF 文 件 进行 一 次 同步 。 从 效率 上 来 讲 ， everysec 模 
J 并 且 束 算出 现 故 障 集 机 ， 数 据 库 也 只 丢失 一 秒 钟 的 命令 








: 当 appendfsync 的 值 为 no 时 ， 服 务 器 在 每 个 事件 循环 都 要 将 

aof_ buf 缓冲 区 中 的 所 有 内 容 写 入 到 AOF 文 件 ， 至 于 何 时 对 AOF 文 件 
进行 同步 ， 则 由 操作 系统 控制 。 因 为 处 于 no 模式 下 的 
flushAppendOnlyFile 调 用 无 须 执 行 同步 操作 ， 所 以 该 模式 下 的 AOF 
文件 写 入 速度 总 是 最 快 的 ， 不 过 因为 这 种 模式 会 在 系统 缓存 中 积累 
一 段 时 间 的 写 入 数据 ， 所 以 该 模式 的 单 次 同步 时 长 通常 是 三 种 模式 
中 时 间 最 长 的 。 从 平 摊 操 作 的 角度 来 看 ，no 模 式 和 everysec 模 式 的 
效率 类 似 ， 当 出 现 故障 停机 时 ， 使 用 no 模式 的 服务 器 将 丢失 上 次 同 
步 AOF 文 件 之 后 的 所 有 写 命令 数据 。 


11.2 AOF 文 件 的 载 入 与 数据 还 原 

因为 AOF 文 件 里 面包 含 了 重建 数据 库 状 态 所 需 的 所 有 写 命令 ， 所 以 
服务 器 只 要 读 入 并 重新 执行 一 遍 AOF 文 件 里 面 保存 的 写 命令 ， 就 可 以 还 
原 服务 器 关闭 之 前 的 数据 库 状 态 。 

Redis 读 取 AOF 文 件 并 还 原 数 据 库 状 态 的 详细 步骤 如 下 : 

1) 创建 一 个 不 带 网 络 连接 的 伪 客 户 端 〈fake client) : 因为 Redis 的 
命令 只 能 在 客户 问 上 下 文中 执行 ， 而 载 入 AOF 文 件 时 所 使 用 的 命令 直接 
来 源 于 AOF 文 件 而 不 是 网 络 连接 ， 所 以 服务 器 使 用 了 一 个 没有 网 络 连接 
的 伪 客 户 端 来 执行 AOF 文 件 保存 的 写 命令 ， 伪 客户 端 执 行 命令 的 效果 和 
带 网 络 连接 的 客户 端 执行 命令 的 效果 完全 一 样 。 

2) 从 AOF 文 件 中 分 析 并 读 取 出 一 条 写 命令 。 

3) 使 用 伪 客 户 端 执行 被 读 出 的 写 命令 。 


4) 一 直 执 行 步骤 2 和 步骤 3， 直 到 AOF 文 件 中 的 所 有 写 命令 都 被 处 
理 完毕 为 止 。 


当 完 成 以 上 步骤 之 后 ，AOF 文 件 所 保存 的 数据 库 状 态 束 会 被 完整 地 
还 原 出 来 ， 整 个 过 程 如 图 11-2 所 示 。 














服务 右 启 动 和 载 入 程序 
创建 伪 客 户 端 


从 AOF 文件 中 分 析 并 读 取 出 一 条 写 命令 








使 用 伪 客 户 端 执行 写 命令 







AOF 文 件 中 的 所 有 写 命 
令 都 已 经 被 执行 完毕 ? 


图 11-2 AOF 文 件 载 入 过 程 
例如 ， 对 于 以 下 AOF 文 件 来 说 : 








*2\r\N$6\r\nSELECT\r\n$1\r\nO\r\n 
EARL rn 
*5\r\n$4\r\nSADD\r\n$6\r\nfruits\r\n$5\r\napple\r\n$6\r\nbanana\r\n$6\r\ncherry\r\n 
*5\r\n$5\r\nRPUSH\r \Nn$7\r\nnu eh Doe NI SAN Ed I Od 





服务 器 首先 读 入 并 执行 SELECT 0 命令 ， 之 后 是 SET msg hello 命 
令 ， 再 之 后 是 SADD fruits apple banana cherry 命 令 ， 最 后 是 RPUSH 
numbers 128 256 512 命 令 ， 当 这 些 命令 都 执行 完毕 之 后 ， 服 务 器 的 数据 
库 就 被 还 原 到 之 前 的 状态 了 。 


ee 以 上 束 古 服务 器 读 入 AOF 文 件 ， 并 根据 文件 内 容 来 还 原 数据 库 状 态 
I 原理 。 


11.3 AOF 重 写 


因为 AOF 持 久 化 是 通过 保存 被 执行 的 写 命令 来 记录 数据 库 状 态 的 ， 
所 以 随 着 服务 器 运行 时 间 的 流逝 ，AOF 文 件 中 的 内 容 会 越 来 越 多 ， 文 件 
的 体积 也 会 越 来 越 大 ， 如 果 不 加 以 控制 的 话 ， 体 积 过 大 的 AOF 文 件 很 可 
能 对 Redis 服 务 器 、 甚 至 整个 宿主 计算 机 造成 影响 ， 并 且 AOF 文 件 的 体 
积 越 大 ， 使 用 AOF 文 件 来 进行 数据 还 原 所 需 的 时 间 就 越 多 。 


举 个 例子 ， 如 果 客 户 端 执行 了 以 下 命令 : 











redis> RPUSH list "F" "Gr" /7 [co "pr, EW, "FW, "Gr 
(integer) 5 





那么 光 是 为 了 记录 这 个 list 键 的 状态 ，AOF 文 件 就 需要 保存 六 条 合 
令 。 


对 于 实际 的 应 用 程度 来 说 ， 写 命令 执行 的 次 数 和 频率 会 比 上 面 的 简 
单 示 例 要 局 得 多 ， 所 以 造成 的 问题 也 会 严重 得 多 。 


为 了 解决 AOF 文 件 体积 膨胀 的 问题 ，Redis 提 供 了 AOF 文 件 重 写 
(Crewrite) 功能。 通过 该 功能 ，Redis 服 务 器 可 以 创建 一 个 新 的 AOF 文 件 
来 蔡 代 现 有 的 AOF 文 件 ， 新 旧 两 个 AOF 文 件 所 保存 的 数据 库 状 态 相 同 ， 
但 新 AOF 文 件 不 会 包含 任何 浪费 空间 的 元 余 命令 ， 所 以 新 AOF 文 件 的 体 
只 通常 会 比 旧 AOF 文 件 的 体积 要 小 得 多 。 


在 接 下 来 的 内 容 中 ， 我 们 将 介绍 AOF 文 件 重 写 的 实现 原理 ， 以 及 
BGREWEITEAOF 命 令 的 实现 原理 。 





11.3.1 AOF 文 件 重 写 的 实现 


虽然 Redis 将 生成 新 AOF 文 件 蔡 换 旧 AOF 文 件 的 功能 命名 为 “AOF 文 
件 重 写 ”"， 但 实际 上 ，AOF 文 件 重 写 并 不 需要 对 现 有 的 AOF 文 件 进行 任 








何 读 取 、 分 析 或 者 写 入 操作 ， 这 个 功能 是 通过 读 取 服务 器 当前 的 数据 库 
状态 来 实现 的 。 


考虑 这 样 一 个 情况 ， 如 宁 服 务 器 对 list 键 执行 了 以 下 命令 : 





> RPUSH list "A" "B" /7 [An"，"B"] 


redis 

(integer) 2 

redis> RPUSH list "C" XA EA BG] 
(integer 

redis> RPUSH list "D" "E" WA AL Bo DE 
(integer 

redis> LPOP list // ["B", "Cc", "Dp", "E"] 

mAn 

redis> LPOP list | 

"pn 

redis> RPUSH list "F" "6G" 7 Le, MD MEW FE WG 


(integer) 5 





那么 服务 器 为 了 保存 当前 list 键 的 状态 ， 必 须 在 AOF 文 件 中 写 入 六 


如 果 服务 器 想 要 用 尽量 少 的 命令 来 记录 list 键 的 状态 ， 那 么 最 简单 
高 效 的 办 法 不 是 去 读 取 和 分 析 现 有 AOF 文 件 的 内 容 ， 而 是 直接 从 数据 库 
中 读 取 键 list 的 值 ， 然 后 用 一 条 RPUSH list"C"D""E""F"G" 命 令 来 代 葵 
保存 在 AOF 文 件 中 的 六 条 命令 ， 这 样 就 可 以 将 保存 list 键 所 需 的 命令 从 


六 条 减少 为 一 条 了 。 


再 考虑 这 样 一 个 例子 ， 如 宁 服 务 器 对 animals 键 执行 了 以 下 命令 : 








redis> SADD animals "Cat" 


In 岂 办 民 :， 

redis> SADD animals "Dog" "Panda" "Tiger" 2 tat DO09 “Panday. "Tiger"y 
in 

redis> SREM animals "Cat" // {"Dog", "Panda", "Tiger"} 


in r 
redis> SADD animals "Lion" "Cat" // {"Dog", "Panda", "Tiger" 
"Lion", "Cat"} 





那么 为 了 记录 animals 键 的 状态 ，AOF 文 件 必须 保存 上 面 列 出 的 四 条 


命令 。 

如 果 服 务 嚣 想 减 少 保存 animals 键 所 需 命令 的 数量 ， 那 么 服务 器 可 以 
通过 读 取 animals 键 的 值 ， 然 后 用 一 条 SADD 
animals"Dog""Panda""Tiger"LionmCat" 命 令 来 代替 上 面 的 四 条 命令 ， 这 
样 束 将 保存 animals 键 所 需 的 命令 从 四 条 减少 为 一 条 了 。 


除了 上 面 列举 的 列表 键 和 和 集合 键 之 外 ， 其 他 所 有 类 型 的 键 部 可 以 用 


下 


同样 的 方法 去 减少 AOF 文 件 中 的 命令 数量 。 De 中 读 取 键 现在 
的 值 ， 然 后 用 一 条 命令 去 记录 键 值 对 ， 代 蔡 之 前 记录 这 个 键 值 对 的 多 条 
命令 ， 这 就 是 AOF 重 写 功 能 的 实现 原理 。 


整个 重 写 过 程 可 以 用 以 下 伪 代 码 表示 : 





def aof_rewrite(new_ aof_file_ name): 


创建 新 AOF 
文件 
f = create file(new aof_file_ name) 


# 
遍历 数据 库 
for db in redisServer .db: 


一 
忽略 空 数 据 库 
if db.is_empty(): continue 
# 
写 入 SFEEQT 
命令 ， 指 定数 据 库 号 码 
f.write_command("SELECT"” + db.id) 


# 
遍历 数据 库 中 的 所 有 键 
for key in db: 


# 
忽略 已 过 期 的 键 
key.is_expired(): continue 





根据 健 的 关 型 对 健 进 行 可 

if key. .type == String: 
rewrite_string(key) 

elif key.type == List: 
rewrite_list(key) 

elif key.type == Hash: 
rewrite_hash(key) 

elif key.type == Set: 
rewrite_set(key) 

elif key.type == SortedSet : 
rewrite_sorted_set(key) 





二 


# 
如 果 键 带 有 过 期 时 间 ， 那 么 过 期 时 间 也 要 被 重 写 
if key.have_expire_time() : 
rewrite_expire_time(key) 














# 

写 入 完毕 ， 关 闭 文件 
f.close() 

def rewrite_string(key): 
# 

使 用 GET 

命令 获取 字符 串 键 的 值 
value = GET(key) 
# 














命令 重 写字 符 串 键 
.Write_command(SET, key, value) 
def rewrite_ list(key): 

















# 
使 用 LRANGE 
命令 获取 列表 键 包 含 的 所 有 元 素 
item1, item2, ..., itemN = LRANGE(key, 09, -1) 






































1 .write_command (RPUSH, key, item1, item2, ..., itemN) 
def rewrite_hash(key): 
# 
使 用 HGETALL 而 
命令 获取 哈 希 键 包 含 的 所 有 键 值 对 
field1, valuel1, field2, value2, ..., fieldN, valueN = HGETALL(key) 
# 
使 用 HMSET 
命令 重 写 哈 希 键 
f.write command(HMSET, key, fieldi, valuel1, field2, value2, ..., fieldN, valueN) 
def rewrite_ set(key); 
# 








使 用 SMEMBERS 
































命令 获取 集合 键 包含 的 所 有 元 素 
elem1, elem2, ..., elemN = SMEMBERS(key) 
# 
使 用 SADD 
命令 重 写 集合 键 
f.write_command(SADD, key, elem1, elem2, ..., elemN) 


def rewrite_ sorted_ set(key): 
一 











使 用 ZRANGE 

命令 获取 有 序 集合 键 包含 的 所 有 元 素 

member1i, scorei, member2, score2, ..., memberN, scoreN = ZRANGE(Kkey, 0, -1, "WITHSCORES") 
# 

使 用 ZADD 
命令 重 写 有 序 集合 键 

f.write_command(ZADD, key, scorel1, member1, score2, member2, 
def rewrite expire time(key): 




















/ ScoreN, memberN) 





# 
获取 毫秒 精度 的 键 过 期 时 间 惟 
timestamp = get_expire_time_in_unixstamp(key) 
# 




















使 用 PEXPIREAT 
命令 重 写 键 的 过 期 时 间 
f.write_ command(PEXPIREAT, key, timestamp) 











人 rewrite 隙 数 生 成 的 新 AOF 文 件 只 包含 还 原 当 前 数据 库 状态 
所 必须 的 命令 ， 所 以 新 AOF 文 件 不 会 浪费 任何 硬盘 空 zs 间 ]。 
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图 11-3 一 个 数据 库 
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例如 ， 对 于 图 11-3 所 示 的 数据 库 ，aof_rewrite 函 数 产 生 的 新 AOF 文 


件 将 包含 以 下 命令 : 





SELECT 0 

RPUSH alphabet "a" "b" "cn 

EXPIREAT alphabet 1385877600000 

HMSET book "name" "Redisin Action" 
"author" "Josiah L. Carlson" 
"publisher" "Manning" 

EXPIREAT book 1388556000000 

SET message "hello world" 










以 上 命令 就 是 还 原 图 11-3 所 示 的 数据 库 所 必须 的 命令 ， 它 们 没有 一 
条 是 多 余 的 。 


YY ~" 
调 | | 


\ 上 
Vs 
« ee 加 局 


在 实际 中 ， 为 了 避免 在 执行 命令 时 造成 客户 端 输入 缓冲 区 洪 出 ， 重 
写 程序 在 处 理 列表 、 哈 希 表 、 和 集合 、 有 序 集合 这 四 种 可 能 会 带 有 多 个 元 
素 的 键 时 ， 会 先 检查 键 所 包含 的 元 素数 量 ， 如 果 元 素 的 数量 超过 了 
redis.h/REDIS_AOF_REWRITE_ITEMS_PER_CMD 常 量 的 值 ， 那 么 重 写 
程序 将 使 用 多 条 命令 来 记录 键 的 值 ， 而 不 单单 使 用 一 条 命令 。 


在 目前 版 本 中 ，REDIS_AOF _ REWRITE ITEMS _ PER_CMD 和 常量 的 
值 为 64， 这 也 就 是 说 ， 如 采 一 个 集合 键 包含 了 超过 64 个 元 素 ， 那 么 重 写 
程序 会 用 多 条 SADD 命 令 来 记录 这 个 集合 ， 并 且 每 条 命令 设置 的 元 素数 
量 也 为 64 个 : 











t-key> m1i> <el > ... <elem64> 
SADD <set-key> <elem65> <elem66> ... <elem128> 
t-key> <elem129> <elem130> ... <elem192> 





另 一 方面 如 果 一 个 列表 键 包 含 了 超过 64 个 项 ， 那 么 重 写 程序 会 用 多 
条 RPUSH 命 令 来 保存 这 个 列表 ， 并 且 每 条 命令 设置 的 项 数量 也 为 64 
J 





list-key: m1i> <item2> ... <item64> 
RPUSH <list-key> <item65> <item66> ... <item1i28> 
<list-key> <item129> <item130> ... <item192> 








重 写 程序 使 用 类 似 的 方法 处 理 包含 多 个 元 素 的 有 序 集合 键 ， 以 及 包 
含 多 个 键 值 对 的 哈 希 表 键 。 


11.3.2 AOF 后 人 台 重 写 


上 面 介 绍 的 AOF 重 写 程序 aof_rewrite 函 数 可 以 很 好 地 完成 创建 一 个 
新 AOF 文 件 的 任务 ， 但 是 ， 因 为 这 个 函数 会 进行 大 量 的 写 入 操作 ， 所 以 





调用 这 个 函数 的 线程 将 被 长 时 间 阻 蹇 ， 因 为 Redis 服 务 吉 使 用 单个 线程 
来 处 理 命令 请 求 ， 所 以 如 果 由 服务 右 直 接 调用 aof_rewrite 函 数 的 话 ， 那 
么 在 重 写 AOF 文 件 期 间 ， 服 务 期 将 无 法 处 理 客 户 端 及 来 的 命令 请 求 。 


很 明显 ， 作 为 一 种 辅佐 性 的 维护 手段 ，Redis 不 希望 AOF 重 写 造 成 
服务 器 无 法 处 理 请 求 ， 所 以 Redis 决 定 将 AOF 重 写 程序 放 到 子 进程 里 执 
行 ， 这 样 做 可 以 同时 达到 两 个 目的 : 


子 进程 进行 AOF 重 写 期 间 ， 服 务 器 进程 〈 父 进程 ) 可 以 继续 处 理 
命令 请 求 。 





子 进程 这 有 服务 占 进 程 的 数据 副本 ,使 用 子 进程 而 不 古 线程 ， 可 
以 在 避免 使 用 锁 的 情况 下 ， 保 证 数据 的 安全 性 。 


不 过 ， 使 用 子 进程 也 有 一 个 问题 需要 解决， 因为 子 进程 在 进行 AOF 
重 写 期 间 ， 服 务 器 进程 还 需要 继续 处 理 命令 请 求 ， 而 新 的 命令 可 能 会 对 
现 有 的 数据 库 状态 进行 修改 ， 从 而 使 得 服务 器 当前 的 数据 库 状态 和 重 写 
后 的 AOF 文 件 所 保存 的 数据 库 状态 不 一 致 。 


表 11-2 展 示 了 一 个 AOF 文 件 重 写 例子 ， 当 子 进程 开始 进行 文件 重 写 
时 ， 数 据 库 中 只 有 k1 一 个 键 但 是 当 子 进程 完成 AOF 文 件 重 写 之 后 ， 服 
务 器 进程 的 数据 库 中 已 经 新 设置 了 k2、k3、k4 三 个 键 ， 因 此 ， 重 写 后 的 
AOF 文 件 和 服务 器 当前 的 数据 库 状 态 并 不 一 致 ， 新 的 AOF 文 件 只 保存 了 
kl 一 个 键 的 数据 ， 而 服务 器 数据 库 现 在 却 有 kl、k2、k3、k4 四 个 键 。 


表 11-2 AOF 文 件 重 写 时 的 服务 器 进程 和 子 进程 





时 间 服务 器 进程 了 了 进程 











1l 执行 命令 SET kl vl 

2 执行 命令 SET kl v2 

1 执行 偷 今 SET kl1 v3 

14 创建 了 进程 ,执行 AOF 文件 重 写 开始 AOF 文件 重 写 
Ts 执行 命令 SET k2 10086 执行 重 写 操 作 

T6 执行 命令 SET k3 12345 执行 重 写 操作 








1 执行 依 今 SET k4 2 完成 AOF 文件 重 写 


为 了 解决 这 种 数据 不 一 致 问题 ，Redis 服 务 器 设置 了 一 个 AOF 重 写 
缓冲 区 ， 这 个 缓冲 区 在 服务 器 创建 子 进程 之 后 开始 使 用 ， 当 Redis 服 务 
器 执行 完 一 个 写 命 令 之 后 ， 它 会 同时 将 这 个 写 命 令 发 送 给 AOF 组 冲 区 和 
AOF 重 写 缓 冲 区 ， 如 图 11-4 所 示 。 





发 送 命令 | 


客户 端 





图 11-4 服务 器 同时 将 命令 发 送 给 AOF 文 件 和 AOF 重 写 缓冲 区 


这 也 就 是 说 ， 在 子 进程 执行 AOF 重 写 期 间 ， 服 务 器 进程 需要 执行 以 
T= 14 遍 


1) 执行 客户 端 发 来 的 命令 。 

2) 将 执行 后 的 写 命令 退 加 到 AOF 绥 冲 区 。 

3) 将 执行 后 的 写 命令 退 加 到 AOF 重 写 绥 冲 区 。 
这 样 一 来 可 以 保证 : 


“AOF 绥 冲 区 的 内 容 会 定期 补 写 入 和 同步 到 AOF 文 件 ， 对 现 有 AOF 
文件 的 处 理工 作 会 如 第 进行 。 


:从 创建 子 进程 开始 ， 服 务 器 执行 的 所 有 写 命令 都 会 被 记录 到 AOF 
重 写 缓冲 区 里 面 。 


当 子 进程 完成 AOF 重 写 工 作 之 后 ， 它 会 向 父 进程 故 送 一 个 信号 ， 父 
进程 在 接 到 该 信号 之 后 ， 会 调用 一 个 信号 处 理 图 数 ， 并 执行 以 下 工作 : 


1) 将 AOF 重 写 缓 冲 区 中 的 所 有 内 容 写 入 到 新 AOF 文 件 中 ， 这 时 新 
AOF 文 件 所 保存 的 数据 库 状 态 将 和 服务 器 当前 的 数据 库 状 态 一 致 。 


2) 对 新 的 AOF 文 件 进 行 改名 ， 原 子 地 (atomic) 履 辣 现 有 的 AOF 
文件 ， 完 成 新 旧 两 个 AOF 文 件 的 蔡 换 。 


这 个 信和 号 处 理 函 数 执行 完毕 之 后 ， 父 进程 就 可 以 继续 像 往 常 一 样 接 


受命 令 请 求 了 。 


在 整个 AOF 后 合 重 写 过 程 中 ， 只 有 信和 号 处 理 函 数 执行 时 会 对 服务 器 
进程 〈 父 进程 ) 造成 阻塞 ， 在 其 他 时 候 ，AOF 后 台 重 写 都 不 会 阻塞 父 进 
程 ， 这 将 AOF 重 写 对 服务 器 性 能 造成 的 影响 降 到 了 最 低 。 


举 个 例子 ， 表 11-3 展 示 了 一 个 AOF 文 件 后 台 重 写 的 执行 过 程 : 


: 当 子 进程 开始 重 写 时 ， 服 务 器 进程 〈 父 进程 ) 的 数据 库 中 只 有 kl 
一 个 键 ， 当 子 进 程 完 成 AOEF 文 件 重 写 之 后 ， 服 务 器 进程 的 数据 库 中 已 经 
多 出 了 k2、k3、k4 三 个 新 键 。 


.在 子 进 程 癌 服务 器 进程 发 送信 号 之 后 ， 服 务 器 进程 会 将 保存 在 
AOF 重 写 缓冲 区 里 面 记 录 的 k2、k3、k4 三 个 键 的 命令 追加 到 新 AOF 文 件 
的 末尾 ， 然 后 用 新 AOF 文 件 蔡 换 旧 AOF 文 件 ， 完 成 AOF 文 件 后 台 重 写 操 





























作 。 
表 11-3 AOF 文 件 后 台 重 写 过 程 

时 间 服务 器 进程 { 父 进 程 了 进程 

Tl 


了 





了 
TI | 凶 了 送 程 执行 AOF 文 件 重 开始 AOF 文件 重 写 
Tr 






16 





17 


接收 到 子 进程 发 来 的 信号 ， 将 命令 SET k2 10086、 


Tg 
的 末尾 


9 | 有 AOF 文 件 覆 关 日 AOF 文 件 


re 


以 上 就 是 AOF 后 台 重 写 ， 也 即 是 BGREWRITEAOF 命 令 的 实现 原 
理 。 


11.4 重点 回顾 


“AOF 文 件 通 过 保存 所 有 修改 数据 库 的 写 命令 请 求 来 记录 服务 占 的 
数据 库 状 态 。 


-AOF 文 件 中 的 所 有 命令 都 以 Redis 命 令 请 求 协 议 的 格式 保存 。 


:命令 请 求 会 先 保存 到 AOF 绥 冲 区 里 面 ， 之 后 再 定期 写 入 并 同步 到 
AOF 文 件 。 











appendfsync 选 项 的 不 同 值 对 AOF 持 久 化 功能 的 安全 性 以 及 Redis 服 
务 器 的 性 能 有 很 大 的 影响 。 


服务 器 只 要 载 入 并 重新 执行 保存 在 AOF 文 件 中 的 命令 ， 就 可 以 还 
原 数 据 库 本 来 的 状态 。 


:AOF 重 写 可 以 产生 一 个 新 的 AOF 文 件 ， 这 个 新 的 AOF 文 件 和 原 有 
的 AOF 文 件 所 保存 的 数据 库 状 态 一 样 ， 但 体积 更 小 。 


:AOF 重 写 是 一 个 有 上 监 义 的 名 字 ， 该 功能 是 通过 读 取 数据 库 中 的 键 
ee 
末 和 上 。 


-在 执行 BGREWRITEAOF 命 令 时 ，Redis 服 务 器 会 维护 一 个 AOF 重 
写 缓冲 区 ， 该 缓冲 区 会 在 子 进程 创建 新 AOF 文 件 期 间 ， 记 录 服 务 器 执行 
的 所 有 写 命令 。 当 子 进程 完成 创建 新 AOF 文 件 的 工作 之 后 ， 服 务 器 会 将 
重 写 缓冲 区 中 的 所 有 内 容 追 加 到 新 AOF 文 件 的 末尾 ， 使 得 新 旧 两 个 AOF 
文件 所 保存 的 数据 库 状 态 一 致 。 最 后 ， 服 务 器 用 新 的 AOF 文 件 蔡 换 旧 的 
AOF 文 件 ， 以 此 来 完成 AOF 文 件 重 写 操作 。 








第 12 章 ”事件 
R Redis 服 务 器 是 一 个 事件 驱动 程序 ， 服 务 器 需要 处 理 以 下 两 类 事 





:文件 事件 (file event) : Redis 服 务 器 通过 套 接 字 与 客户 端 〈 或 者 
其 他 Redis 服 务 器 ) 进行 连接 ， 而 文件 事件 就 是 服务 器 对 套 接 字 操作 的 
抽象 。 服 务 器 与 客户 端 〈 或 者 其 他 服务 器 ) 的 通信 会 产生 相应 的 文件 事 
件 ， 而 服务 器 则 通过 监听 并 处 理 这 些 事件 来 完成 一 系列 网 络 通信 操 作 。 


:时 间 事 件 (time event) : Redis 服 务 器 中 的 一 些 操作 (比如 
serverCron 了 负数 ) 需要 在 给 定 的 时 间 点 执行 ， 而 时 间 事 件 就 是 服务 器 对 
这 类 定时 操作 的 抽象 。 


本 章 将 对 文件 事件 和 时 间 事 件 进行 介绍 ， 说 明 这 两 种 事件 在 Redis 
服务 器 中 的 应 用 ， 它 们 的 实现 方法 ， 以 及 处 理 这 些 事件 的 API 等 等 。 


本 章 最 后 将 对 服务 器 的 事件 调度 方式 进行 介绍 ， 说 明 Redis 服 务 右 
是 如 何 安排 并 执行 文件 事件 和 时 间 事 件 的 。 











12.1 文件 事件 


Redis 基 于 Reactor 模 式 开 发 了 自己 的 网 络 事 件 处 理 器 : 这 个 处 理 器 
被 称 为 文件 事件 处 理 器 (file event handler) : 


:文件 事件 处 理 器 使 用 1/O 多 路 复 用 (multiplexing) 程序 来 同时 监听 
0 
理 器 。 


: 当 被 监听 的 套 接 字 准 备 好 执行 连接 应 答 〈accept) 、 读 取 
(read) 、 写 入 (write) 、 关 闭 〈close) 等 操作 时 ， 与 操作 相对 应 的 文 
件 事 件 就 会 产生 ， 这 时 文件 事件 处 理 器 就 会 调用 套 接 字 之 前 关联 好 的 事 
件 处 理 器 来 处 理 这 些 事件 。 


里 然 文 件 事 件 处 理 器 以 单线 程 方式 运行 ， 但 通过 使 用 WO 多 路 复 用 
程序 来 监听 多 个 套 接 字 ， 文 件 事 件 处 理 器 既 实 现 了 高 性 能 的 网 络 通信 模 
型 ， 又 可 以 很 好 地 与 Redis 服 务 器 中 其 他 同样 以 单线 程 方式 运行 的 模块 
进行 对 接 ， 这 保持 了 Redis 内 部 单线 程 设计 的 简单 性 。 


12.1.1 文件 事件 处 理 器 的 构成 


图 12-1 展 示 了 文件 事件 处 理 器 的 四 个 组 成 部 分 ， 它 们 分 别 是 套 接 
字 、LIO 多 路 复 用 程序 、 文 件 事件 分 派 器 〈dispatcher) ， 以 及 事件 处 理 
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图 12-1 文件 事件 处 理 器 的 四 个 组 成 部 分 


文件 事件 是 对 套 接 字 操作 的 抽象 ， 每 当 一 个 套 接 字 准 备 好 执行 连接 
应 答 (accept) 、 写 入 、 读 取 、 关 闭 等 操作 时 ， 束 会 产生 一 个 文件 事 
件 。 因 为 一 个 服务 器 通常 会 连接 多 个 套 接 字 ， 所 以 多 个 文件 事件 有 可 能 
会 并 发 地 出 现 。 


LO 多 路 复 用 程序 负责 监听 多 个 套 接 字 ， 并 向 文件 事件 分 派 嚣 传送 
那 世 产生 了 于 作 的 冤 屡 他 


尽管 多 个 文件 事件 可 能 会 并 发 地 出 现 ， 但 IO 多 路 复 用 程序 总 是 会 
将 所 有 产生 事件 的 套 接 字 都 放 到 一 个 队列 里 面 ， 然 后 通过 这 个 队列 ， 以 
有 序 (sequentially)〉 、 同 步 (synchronously) 、 每 次 一 个 套 接 字 的 方式 
同文 件 事件 分 派 占 传送 套 接 字 。 当 上 一 个 套 接 字 产 生 的 事件 被 处 理 完毕 
之 后 (该 套 接 字 为 事件 所 关联 的 事件 处 理 器 执行 完毕 ) ，LIO 多 路 复 用 
程序 才 会 继续 向 文件 事件 分 派 融 传送 下 一 个 套 接 字 ， 如 图 12-2 所 示 。 
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图 12-2 IO 多 路 复 用 程序 通过 队列 癌 文 件 事件 分 派 器 传送 套 接 字 


文件 事件 分 小 器 接收 MO 多 路 复 用 程序 传 来 的 套 接 字 ， 并 根据 套 接 
字 产 生 的 事件 的 类 型 ， 调 用 相应 的 事件 处 理 絮 。 


服务 器 会 为 执行 不 同 任务 的 套 接 字 关联 不 同 的 事件 处 理 器 ， 这 些 处 
0 它们 定义 了 茶 个 事件 友 生 时 ， 服 务 絮 应 该 执行 的 动 


12.1.2 IO 多 路 复 用 程序 的 实现 


Redis 的 VO 多 路 复 用 程序 的 所 有 功能 都 是 通过 包 状 常见 的 select、 
epoll、evport 和 kqueue 这 些 IO 多 路 复 用 函数 库 来 实现 的 ， 每 个 IO 多 路 复 
用 函数 库 在 Redis 源 码 中 都 对 应 一 个 单独 的 文件 ， 比 如 ae_select.c、 
ae_epoll.c、ae_kqueue.c， 诸 如 此 类 。 


因为 Redis 为 每 个 WO 多 路 复 用 函数 库 都 实现 了 相同 的 API， 所 以 LO 
多 路 复 用 程序 的 底层 实现 是 可 以 互 换 的 ， 如 图 12-3 所 示 。 


IO 多 路 复 用 程序 


底层 实现 


图 123 ”Redis 的 VO 多 路 复 用 程序 有 多 个 JO 多 路 复 用 库 实 现 可 先 


Redis 在 IO 多 路 复 用 程序 的 实现 源码 中 用 失 nclude 宏 定义 了 相应 的 规 
则 ， 程 序 会 在 编译 时 目 动 选择 系统 中 性 能 最 高 的 O 多 路 复 用 函数 库 来 
作为 Redis 的 IO 多 路 复 用 程序 的 底层 实现 : 







































Include the best multiplexing layer Supported by this System . 

* The following should be ordered by performances / descen ding. */ 
ifdef HAVE_EVPORT 
include " port:e" 


闪闪 站 As 
| 
mm 


# ifdef HAVE_EPOLL 

# include "a QLL.C™ 

# else 

ifdef HAVE_KQUEUE 
include "a Ueue.c" 


e 
endif 


# 
# endif 





12.1.3 ”事件 的 类 型 


IO 多 路 复 用 程序 可 以 监听 多 个 套 接 字 的 ae.hHMAE_ READABLE 事 件 


0 这 两 类 事件 和 套 接 字 操作 之 间 的 对 应 关系 
0D 下 : 














: 当 套 接 字 变 得 可 读 时 “客户 端 对 套 接 字 执 行 write 操 作 ， 或 者 执行 
close 操 作 ) ， 或 者 有 新 的 可 应 答 〈acceptable) 套 接 字 出 现时 《客户 端 
对 服务 器 的 监听 套 接 字 执 行 connect 操 作 ) ， 套 接 字 产生 
AF_READABLE 事 件 。 




















` 当 套 接 字 变 得 可 写 时 (客户 端 对 套 接 字 执行 read 操 作 )〉 ， 套 接 字 产 
生 AE_ WRITABLE 事 件 。 


IO 多 路 复 用 程序 允许 服务 器 同时 监听 套 接 字 的 AE_READABLE 事 
件 和 AE_WRITABLE 事 件 ， 如 果 一 个 套 接 字 同时 产生 了 这 两 种 事件 ， 那 
么 文件 事件 分 派 器 会 优先 处 理 AE_ READABLE 事 件 ， 等 到 
AE_READABLE 事 件 处 理 完 之 后 ， 才 处 理 AE_WRITABLE 事 件 。 





这 也 就 是 将， 如果 一 个 套 接 字 又 可 读 又 可 写 的 话 ， 那 么 服务 器 将 移 
读 套 接 字 ， 后 写 套 搂 字 。 


12.1.4 API 











ae.C/aeCreateFileEvent 函 数 接受 一 个 套 接 字 摘 述 符 、 一 个 事件 类 
型 ， 以 及 一 个 事件 处 理 器 作为 参数 ， 将 给 定 套 接 字 的 给 定 事件 加 入 到 
IO 多 路 复 用 程序 的 监听 范围 之 内 ， 并 对 事件 和 事件 处 理 器 进行 关联 。 











ae.c/aeDeleteFileEvent 削 数 接受 一 个 套 接 字 描述 符 和 一 个 监听 事件 
类 型 作为 参数 ， 让 WO 多 路 复 用 程序 取消 对 给 定 套 接 字 的 给 定 事 件 的 监 














听 ， 并 取消 事件 和 事件 处 理 吉 之 间 的 关联 。 


ae.C/aeGetFileEvents 函 数 接受 一 个 套 接 字 摘 述 符 ， 返 回 该 套 接 字 正 
在 被 监听 的 事件 类 型 


如 宋 套 接 字 没有 任何 事件 被 监听 ， 那 么 函数 返回 AE_NONE。 


-如果 套 接 字 的 读 事件 正在 被 监听 ， 那 么 图 数 返回 
AE_READABLE。 


-如果 套 接 字 的 写 事 件 正 在 被 监听 ， 那 么 图 数 返回 
AE_WRITABLE。 


如 末 僚 接 字 的 读 事 件 和 写 事件 正在 被 监听 ， 那 么 函数 返回 
AE_READABLEIAE_WRITABLE。 


ae.c/aeWait 函 数 接受 一 个 套 接 字 描 述 符 、 一 个 事件 类 型 和 一 个 坚 秒 
数 为 参数 ， 在 给 定 的 时 间 内 阻塞 并 等 待 套 接 字 的 给 定 类 型 事件 产生 ， 当 
事件 成 功 产 生 ， 或 者 等 竺 超时 之 后 ， 函 数 返 回 。 


ae.c/aeApiPoll 函 数 接受 一 个 sys/time.h/struct timeval 结 构 为 参数 ， 并 
在 指定 的 时 间 内 ， 阻 塞 并 等 待 所 有 被 aeCreateFileEvent 函 数 设置 为 监听 
状态 的 套 接 字 产 生 文 件 事件 ， 当 有 至 少 一 个 事件 产生 ， 或 者 等 符 超 时 
后 ， 疯 数 返 回 。 


ae.C/aeProcessEvents 函 数 是 文件 事件 分 派 器 ， 它 先 调 用 aeApiPoll 函 
数 来 等 等 事件 产生 ， 然 后 遍历 所 有 已 产生 的 事件 ， 并 调用 相应 的 事件 处 
理 器 来 处 理 这 些 事件 。 


ae.C/aeGetApiName 函 数 返 回 MO 多 路 复 用 程序 底层 所 使 用 的 MO 多 路 
复 用 函数 库 的 名 称 : 返回 "epoll" 表 示 底 层 为 epoll 函 数 库 ， 返 回 "select" 表 
示 底 层 为 Select 图 数 库 ， 诸 如 此 类。 
12.1.5 ”文件 事件 的 处 理 器 


Redis 为 文件 事件 编写 了 多 个 处 理 器 ， 这 些 事件 处 理 器 分 别 用 于 实 
现 不 同 的 网 络 通信 需求 ， 比 如 说 : 















































.为 了 对 连接 服务 器 的 各 个 客户 端 进行 应 答 ， 服 务 器 要 为 监听 套 接 
字 关 联 连接 应 答 处 理 器 。 


.为 了 接收 客户 器 传 来 的 命令 请 求 ， 服 务 器 要 为 客户 端 套 接 字 头 联 
命令 请 求 处 理 器 。 


NO GP 服务 器 要 为 客户 端 套 接 字 关 
联 命令 回复 处 理 器 。 


当主 服务 器 和 从 服务 器 进行 复制 操作 时 ， 主 从 服务 此 都 需要 关联 
特别 为 复制 功能 编写 的 复制 处 理 右 。 


在 这 些 事件 处 理 器 里 面 ， 服 务 喜 最 常用 的 要 数 与 客户 端 进 行 通信 的 
连接 应 答 处 理 器 、 命 令 请 求 处 理 圳 和 命令 回复 处 理 需 。 


1. 连 接应 答 处 理 吉 


networking.c/acceptTcpHandler 函 数 是 Redis 的 连接 应 答 处 理 器 ， 这 个 
处 理 器 用 于 对 连接 服务 器 监听 套 接 字 的 客户 端 进行 应 答 ， 有 具体 实现 为 
sys/socket.hyaccept 函 数 的 包装 。 


当 Redis 服 务 器 进行 初始 化 的 时 候 ， 程 序 会 将 这 个 连接 应 答 处 理 器 
和 服务 器 监听 套 接 字 的 AE_ READABLE 事 件 关 联 起 来 ， 当 有 客户 端 用 
sys/socket.h/connect 函 数 连接 服务 器 监听 套 接 字 的 时 候 ， 套 接 字 就 会 产 
生 AE_READABLE 事 件 ， 引 发 连接 应 答 处 理 器 执行 ， 并 执行 相应 的 套 接 
字 应 答 操作 ， 如 图 12-4 所 示 。 








服务 器 
服务 器 监听 套 接 字 产 生 


AE READABLE 事件 ， 
执行 连接 应 答 处 理 器 
图 12-4 服务 器 对 客户 端的 连接 请 求 进行 应 管 
2. 命 令 请 求 处 理 需 





networking.creadQueryFromClient 函 数 是 Redis 的 命令 请 求 处 理 堪 ， 
这 个 处 理 器 负责 从 套 接 字 中 读 入 客户 端 发 送 的 命令 请 求 内 容 ， 有 具体 实现 
为 unistd.h/read 函 数 的 包装 。 


当 一 个 客户 端 通过 连接 应 答 处 理 器 成 功 连接 到 服务 器 之 后 ， 服 务 器 
会 将 客户 端 套 接 字 的 AE_READABLE 事 件 和 命令 请 求 处 理 器 关联 起 来 ， 
当 客户 端 向 服务 器 发 送 命令 请 求 的 时 候 ， 套 接 字 就 会 产生 
AE_READABLE 事 件 ， 引 发 命令 请 求 处 理 器 执行 ， 并 执行 相应 的 套 接 字 
读 入 操作 ， 如 图 12-5 所 示 。 








服务 占 
发 送 命令 请 求 客户 问 套 接 字 产生 


AE READABLE 事件 ， 


执行 命令 请 求 处 理 需 





图 12-5 服务 器 接收 客户 端 发 来 的 命令 请 求 


在 客户 端 连接 服务 器 的 整个 过 程 中 ， 服 务 器 都 会 一 直 为 客户 端 套 接 
字 的 AE_READABLE 事 件 关 联 命 令 请 求 处 理 器 。 


3. 命 令 回 复 处 理 器 


networking.c/sendReplyToClient 函 数 是 Redis 的 命令 回复 处 理 器 ， 这 
个 处 理 器 负责 将 服务 器 执行 命令 后 得 到 的 命令 回复 通过 套 接 字 返 回 给 客 
户 端 ， 具 体 实 现 为 unistd.h/write 函 数 的 包装 。 


当 服 务 器 有 命令 回复 需要 传送 给 客户 端的 时 候 ， 服 务 器 会 将 客户 端 
套 接 字 的 AE_WRITABLE 事 件 和 命令 回复 处 理 器 关联 起 来 ， 当 客户 端 准 
备 好 接收 服务 喜 传 回 的 命令 回复 时 ， 束 会 产生 AE_WRITABLE 事 件 ， 引 
发 命令 回复 处 理 器 执行 ， 并 执行 相应 的 套 接 字 写 入 操作 ， 如 图 12-6 所 
外。 








服务 器 
发 送 命令 回复 客户 端 套 接 字 产生 


AE_WRITABLE 事件 ， 


执行 命令 回复 处 理 咒 





图 12-6 ”服务 器 问 客户 端 发 送 合 令 回 复 
当 命 令 回 复发 送 完毕 之 后 ， 服 务 器 就 会 解除 命令 回复 处 理 器 与 客户 
端 套 接 字 的 AE_WRITABLE 事 件 之 间 的 关联 。 
4. 一 次 完整 的 客户 端 与 服务 器 连接 事件 示例 


让 我 们 来 退 踪 一 次 Redis 客 户 端 与 服务 器 进行 连接 并 友 送 命令 的 整 
人 
6 








假设 一 个 Redis 服 务 器 正在 运作 ， 那 么 这 个 服务 器 的 监 昕 套 接 字 的 
AE_READABLE 事 件 应 该 正 处 于 监听 状态 之 下 ， 而 该 事件 所 对 应 的 处 理 
器 为 连接 应 答 处 理 器 。 


如 果 这 时 有 一 个 Redis 客 户 端 向 服务 器 发 起 连接 ， 那 么 监听 套 接 字 
将 产生 AE_READABLE 事 件 ， 触 发 连接 应 答 处 理 器 执行 。 处 理 器 会 对 客 
户 端的 连接 请 求 进行 应 答 ， 然 后 创建 客户 端 套 接 字 ， 以 及 客户 端 状态 ， 
并 将 客户 端 套 接 字 的 AE_READABLE 事 件 与 命令 请 求 处 理 器 进行 关联 ， 
使 得 客户 端 可 以 向 主 服 务 器 发 送 命令 请 求 。 


之 后 ， 假 设 客户 病 同 主 服务 器 发 送 一 个 命令 请 求 ， 那 么 客户 痢 套 接 
字 将 产生 AE_READABLE 事 件 ， 引 发 命令 请 求 处 理 圳 执行 ， 处 理 需 读 取 
客户 端的 命令 内 容 ， 然 后 传 给 相关 程序 去 执行 。 


执行 命令 将 产生 相应 的 命令 回复 ， 为 了 将 这 些 命令 回复 传送 回 客户 
端 ， 服 务 器 会 将 客户 端 套 接 字 的 AE_WRITABLE 事 件 与 命令 回复 处 理 器 
进行 关联 。 当 客户 端 尝试 读 取 命 令 回 复 的 时 候 ， 客 户 端 套 接 字 将 产生 
AE_WRITABLE 事 件 ， 触 发 命令 回复 处 理 器 执行 ， 当 命令 回复 处 理 器 将 
命令 回复 全 部 写 入 到 套 接 字 之 后 ， 服 务 器 就 会 解除 客户 端 套 接 字 的 
AE_WRITABLE 事 件 与 命令 回复 处 理 器 之 间 的 关联 。 


图 12-7 总 结 了 上 面 描述 的 整个 通信 过 程 ， 以 及 通信 时 用 到 的 事件 处 
器 。 


客户 端 回 服 务 器 发 送 连 接 请 求 
服务 器 执行 连接 应 答 处 理 器 


安 | 客户 端 向 服务 器 发 送 命令 请 求 。 | 服 
所 | 服务 器 执行 命令 请 求 处 理 器 ,| 务 


服务 器 疝 客户 端 发 送 命 令 回 复 
服务 器 执行 命令 回复 处 理 需 





图 12-7 客户 端 和 服务 器 的 通信 过 程 


12.2 时间 事件 
Redis 的 时 间 事件 分 为 以 下 两 类 : 


:定时 事件 : 让 一 段 程序 在 指定 的 时 间 之 后 执行 一 次 。 比 如 说 ， 让 
程序 X 在 当前 时 间 的 30 毫 秒 之 后 执行 一 次 。 


:周期 性 事件 : 让 一 段 程序 每 隔 指定 时 间 就 执行 一 次 。 比 如 说 ， 让 
程序 Y 每 隔 30 训 秒 就 执行 一 次 。 


一 个 时 间 事 件 主要 由 以 下 三 个 属性 组 成 : 


id: 服务 器 为 时 间 事 件 创建 的 全 局 唯一 ID (标识 号 ) 。ID 号 按 从 
小 到 大 的 顺序 递增 ， 新 事件 的 ID 号 比 旧事 件 的 ID 号 要 大 。 


-when: 坚 秒 精度 的 UNIX 时 间 惟 ， 记 录 了 时 间 事 件 的 到 达 
Carrive) 时 间 。 


:timeProc: 时 间 事 件 处 理 器 ， 一 个 函数 。 当 时 间 事 件 到 达 时 ， 服 务 
器 束 会 调用 相应 的 处 理 器 来 处 理事 件 。 


一 个 时 间 事 件 是 定时 事件 还 是 周期 性 事件 取决 于 时 间 事 件 处 理 需 的 


返回 值 


.如 果 事 件 处 理 器 返回 ae.HMAE NOMORE， 那 么 这 个 事件 为 定时 事 
件 : 该 事件 在 达到 一 次 之 后 就 会 被 删除 ， 之 后 不 再 到 达 。 


.如 果 事 件 处 理 器 返回 一 个 非 AE_NOMORE 的 整数 值 ， 那 么 这 个 事 
件 为 周期 性 时 间 : 当 一 个 时 间 事 件 到 达 之 后 ， 服 务 器 会 根据 事件 处 理 嚣 
返回 的 值 ， 对 时 间 事 件 的 when 属 性 进行 更 新 ， 让 这 个 事件 在 一 段 时 间 之 
后 再 次 到 达 ， 并 以 这 种 方式 一 直 更 新 并 运行 下 去 。 比 如 说 ， 如 果 一 个 时 
间 事 件 的 处 理 器 返回 整数 值 30， 那 么 服务 器 应 该 对 这 个 时 间 事 件 进行 更 
新 ， 让 这 个 事件 在 30 毫 秒 之 后 再 次 到 达 。 


目前 版 本 的 Redis 只 使 用 周期 性 事件 ， 而 没有 使 用 定时 事件 。 
i221 学 现 


























服务 器 将 所 有 时 间 事 件 都 放 在 一 个 无 序 链表 中 ， 每 当时 间 事 件 执行 
名 运行 时 ， 它 束 衣 历 整 个 链表 ， 查 找 所 有 已 到 达 的 时 间 事 件 ， 并 调用 相 
应 的 事件 处 理 器 。 


图 12-8 展 示 了 一 个 保存 时 间 事 件 的 链表 的 例子 ， 链 表 中 包含 了 三 个 
不 同 的 时 间 事 件 : 因为 新 的 时 间 事 件 总 是 插入 到 链表 的 表 头 ， 所 以 三 个 
时 间 事 件 分 别 按 ID 逆 序 排 序 ， 表 头 事件 的 ID 为 3， 中 间 事 件 的 ID 为 2， 表 
尾 事件 的 ID 为 1。 











time event time event time event 


id id id 
3 2 1 
When When When 
rine ents_ | 1385877600030 1385877600000 1385877600010 
- (2013 年 12 月 1 日 零 (2013 年 12 月 1 日 堆 (2013 年 12 月 1 日 零 


时 之 后 30 写 秒 ) 时 ) 时 之 后 10 毫 秒 ) 


timeProc timeProc timeProc 
handler 3 handler 2 handler 1 
图 12-8 用 链表 连接 起 来 的 三 个 时 间 事 件 


注意 ， 我 们 说 保存 时 间 事 件 的 链表 为 无 序 链表 ， 指 的 不 是 链表 不 按 
ID 排序 ， 而 是 说 ， 该 链表 不 按 when 属 性 的 大 小 排序 。 正 因为 链表 没有 
按 when 属 性 进行 排序 ， 所 以 当时 间 事 件 执行 器 运行 的 时 候 ， 它 必须 蜗 历 
人 
会 被 处 理 。 








无 序 链 表 并 不 影响 时 间 事 件 处 理 器 的 性 能 





在 目前 版 本 中 ， 正 常 模式 下 的 Redis 服 务 器 只 使 用 serverCron 一 
个 时 间 事 件 ， 而 在 benchmark 模 式 下 ， 服 务 器 也 只 使 用 两 个 时 间 事 


在 这 种 情况 下 ， 服 务 器 几乎 是 将 无 序 链表 退化 成 一 个 指针 来 使 
， 所 以 使 用 无 序 链 表 来 保存 时 间 事 件 ， 并 不 影响 事件 执行 的 性 
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ae.C/aeCreateTimeEvent 函 数 接受 一 个 可 秒 数 milliseconds 和 一 个 时 间 
事件 处 理 喜 proc 作 为 参数 ， 将 一 个 新 的 时 间 事 件 添 加 到 服务 堪 ， 这 个 新 
a 间 事 件 将 在 当前 时 间 的 milliseconds 毫 秒 之 后 到 达 ， 而 事件 的 处 理 器 

proc。 


例如 ， 如 果 服 务 器 当前 所 保存 的 时 间 事 件 如 图 12-9 所 示 。 


time event time event 


id id 
之 1 
when when 
time events 1385877600000 1385877600010 


(2013 年 12 月 1 日 (2013 年 12 月 1 日 零 
零 时 ) 时 之 后 10 毫 秒 ) 


timeProc timeProc 
handler 2 handler 1 
图 12-9 ”用 链表 连接 起 来 的 两 个 时 间 事 件 


那么 当 程 序 以 50 毫 秒 和 handler_ 3 处 理 器 为 参数 ， 在 时 间 
1385877599980 (2013 年 12 月 1 日 零 时 前 20 毫 秒 ) 时 调用 
aeCreateTimeEvent 函 数 ， 服 务 器 将 创建 ID 为 3 的 时 间 事 件 ， 这 时 服务 器 
所 保存 的 时 间 事 件 将 如 图 12-8 所 示 。 


ae.c/aeDeleteFileEvent 函 数 接受 一 个 时 间 事 件 ID 作 为 参数 ， 然 后 从 
服务 器 中 删除 该 ID 所 对 应 的 时 间 事 件 。 





举 个 例子 ， 如 果 服 务 器 当前 保存 的 时 间 事 件 如 图 12-8 所 示 ， 那 么 当 
程序 调用 aeDeleteFileEvent (3) 之 后 ， 服 务 器 保存 的 时 间 事 件 将 变 成 图 
12-9 所 示 的 样子 。 


ae.C/aeSearchNearestTimer 函 数 返 回 到 达 时 间距 离 当 前 时 间 最 接近 的 
那个 时 间 事 件 。 


举 个 例子 ， 如 果 当 前 时 间 为 1385877599980 〈2013 年 12 月 1 日 零 时 前 
20 毫 秒 ) ， 而 服务 器 当前 保存 的 时 间 事 件 如 图 12-8 所 示 ， 那 么 调用 
aeSearchNearestTimer 函 数 将 返回 ID 为 2 的 事件 。 





ae.C/processTimeEvents 函 数 是 时 间 事 件 的 执行 器 ， 这 个 函数 会 志 历 
所 有 已 到 达 的 时 间 事 件 ， 并 调用 这 些 事件 的 处 理 器 。 已 到 达 指 的 是 ， 时 
的 when 属 性 记录 的 UNIX 时 间 惟 等 于 或 小 于 当前 时 间 的 UNIX 时 间 





举 个 例子 ， 如 果 服 务 器 保存 的 时 间 事 件 如 图 12-8 所 示 ， 并 且 当 前 时 
间 为 1385877600010 〈2013 年 12 月 1 日 零 时 之 后 10 毫 秒 ) ， 那 么 
processTimeEvents 函 数 将 处 理 图 中 ID 为 2 和 1 的 时 间 事 件 ， 因 为 这 两 个 事 
件 的 到 达 时 间 都 大 于 等 于 1385877600010。 


processTimeEvents 函 数 的 定义 可 以 用 以 下 伪 代 码 来 描述 








def processTimeEvents(): 
# 
人 
n al1 t 
从 查 事 件 晨 已 经 到达 
_event .when <= unix_ts_now() : 
事件 已 到 达 
# 
执行 事件 处 理 器 ， 并 获取 返回 值 
retval = time_event.timeProc( ) 
# 
如 果 这 是 人 
etval == AE_NOMORE: 





那么 将 该 导 人 I 
ete time event_from server(time_event) 





如 果 这 是 中 周期 性 事件 
else: 


# 
时 按照 事件 处 理 器 的 返回 值 更 新 时 间 事 件 的 when 


让 这 个 事件 在 指 这 
en( ti 











nt, retval) 








12.2.3 ”时间 事 件 应 用 实例 : serverCron 函 数 





持续 运行 的 Redis 服 务 器 需要 定期 对 目 身 的 资源 和 状态 进行 检查 和 
调整 ， 从 而 确保 服务 器 可 以 长 期 、 稳 定 地 运行 ， 这 些 定 期 操作 由 
redis.c/serverCron 函 数 负 责 执行 ， 它 的 主要 工作 包括 : 


.更新 服务 器 的 各 实质 计 信息 ， 比如 时 间 、 内 存 占用 、 数 据 库 占用 


情况 等 。 
:清理 数据 库 中 的 过 期 键 值 对 。 
关闭 和 清理 连接 失效 的 客户 端 
尝试 进行 AOF 或 RDB 持 久 化 操作 。 
如果 服务 器 是 主 服 务 器 ， 那 么 对 从 服务 器 进行 定期 同步 。 
-如 果 处 于 集群 模式 ， 对 集群 进行 定期 同步 和 连接 测试 。 


Redis 服 务 器 以 周期 性 事件 的 方式 来 运行 ServerCron 函 数 ， 在 服务 占 
oe 每 隅 一 段 时 间 ，serverCron 就 会 执行 一 次 ， 直 到 服务 器 关闭 
为 止 。 





在 Redis2.6 版 本 ， 服 务 器 默认 规定 serverCron 每 秒 运 行 10 次 ， 平 均 每 
间隔 100 坚 秒 运 行 一 次 。 


从 Redis2. 8 和 用 户 可 以 通过 修改 hz 选项 来 调整 serverCron 的 每 秒 
执行 次 数 ， 具 体 信息 请 参考 示例 配置 文件 redis.conf 关 于 hz 选项 的 说 明 。 








12.3 ”事件 的 调度 与 执行 


因为 服务 器 中 同时 存在 文件 事件 和 时 间 事 件 两 种 事件 类 型 ， 所 以 服 
务 露 必须 对 这 两 种 事件 进行 调度 ， 决 定 何 时 应 该 处 理 文件 事件 ， 何 时 又 
应 该 处 理 时 间 事 件 ， 以 及 花 多 少时 间 来 处 理 它 们 等 等 。 





事件 的 调度 和 执行 由 ae.oaeProcessEvents 函 数 负责 ， 以 下 是 该 函数 
的 伪 代 码 表示 : 





def aeProcessEvents(): 
获取 到 达 时 间 离 当前 时 间 最 接近 的 时 间 事 件 
time_event = aeSearchNearestTimer() 
# 
计算 最 接近 的 时 间 事 件 距 离 到 达 还 有 多 少 毫秒 
remaind_ ms = time_event.when - unix_ts_now() 








# 
如 果 事 件 已 到 达 ， 那 么 remaind_ms 
的 值 可 能 为 负数 ， 将 它 设 定 为 9 
if remaind ms < 0: 
remaind ms = 0 
# 
根据 remaind_ms 
的 值 ， 创 建 timeval 
结 | 


击 
timeval = create_timeval_with_ms(remaind_ms) 





阻塞 并 等 待 文件 事件 产生 ， 最 大 阻塞 时 间 由 传 入 的 timeval 
结构 决定 
# 














如 果 remaind_ms 
值 为 9 
， 那 么 aeApiPol1 


调用 之 后 马上 返回 ， 不 阻塞 
aeApiPoll(timeval) 




















# 
处 理 所 有 已 产生 的 文件 事件 
processFileEvents() 





处 理 所 有 已 到 达 的 时 间 事 件 
processTimeEvents() 


mm 
J 


上 Se 
一 ”上 局 








前 面 的 12.1 节 在 介绍 文件 事件 API 的 时 候 ， 并 没有 讲 到 
processFileEvents 这 个 函数 ， 因 为 它 并 不 存在 ， 在 实际 中 ， 处 理 已 产生 
文件 事件 的 代码 是 直接 写 在 aeProcessEvents 函 数 里 面 的 ， 这 里 为 了 方便 
讲述 ， 才 虚构 了 processFileEvents 函 数 。 





将 aeProcessEvents 函 数 置 于 一 个 循环 里 面 ， 加 上 初始 化 和 清理 函 
数 ， 这 就 构成 了 Redis 服 务 右 的 主 函 数 ， 以 下 是 该 函数 的 伪 代 码 表 示 : 





def main(): 


初始 化 服务 器 
init_server() 





# 
一 直 处 理事 件 ， 直 到 服务 器 关闭 为 止 
while s _is not_shutdown(): 
aeProcessEvents() 


# 
服务 器 关闭 ， 执 行 清理 操作 
clean_server() 


从 事件 处 理 的 角度 来 看 ，Redis 服 务 器 的 运行 流程 可 以 用 流程 图 12- 
茎 括 。 


10 来 概 # 
启动 服务 器 
是 否 关闭 服务 器 ? 


关闭 服务 需 等 符 文 件 事件 产生 开始 新 的 


事件 循环 
处 理 已 产生 的 文件 事件 









处 理 已 达到 的 时 间 事 件 
图 12-10 事件 处 理 角 度 下 的 服务 器 运行 流程 


以 下 是 事件 的 调度 和 执行 规则 : 


1) aeApiPoll 函 数 的 最 大 阻 窟 时 间 由 到 达 时 间 最 接近 当前 时 间 的 时 
间 事 件 决 定 ， 这 个 方法 既 可 以 避免 服务 器 对 时 间 事 件 进行 频 索 的 轮 询 
〈 忙 等 待 ) ， 也 可 以 确保 aeApiPol 函 数 不 会 阻塞 过 长 时 间 。 


2) 因为 文件 事件 是 随机 出 现 的 ， 如 果 等 待 并 处 理 完 一 次 文件 事件 
之 后 ， 仍 未 有 任何 时 间 事 件 到 达 ， 那 么 服务 器 将 再 次 等 得 并 处 理 文件 事 





件 。 随 着 文件 事件 的 不 断 执 行 ， 时 间 会 逐渐 癌 时 间 事 件 所 设置 的 到 达 时 
并 最 终 来 到 到 达 时 间 ， 这 时 服务 器 就 可 以 开始 处 理 到 达 的 时 间 
下 全 


3) 对 文件 事件 和 时 间 事 件 的 处 理 都 是 同步 、 有 序 、 原 子 地 执行 
的 ， 服 务 器 不 会 中 途中 断 事件 处 理 ， 也 不 会 对 事件 进行 抢占 ， 因 此 ， 不 
管 是 文件 事件 的 处 理 器 ， 还 是 时 间 事 件 的 处 理 器 ， 它 们 都 会 尽 可 地 减少 
程序 的 阻 竖 时 间 ， 并 在 有 需要 时 主动 让 出 执行 权 ， 从 而 降低 造成 事件 饥 
猴 的 可 能 性 。 比 如 说 ， 在 命令 回复 处 理 融 将 一 个 命令 回复 写 入 到 客户 端 
套 接 字 时 ， 如 果 写 入 字 节 数 超 过 了 一 个 预 设 和 量 的 话 ， 命 令 回 复 处 理 器 
束 会 主动 用 break 跳 出 写 入 循环 ， 将 余下 的 数据 留 到 下 次 再 写 ; 为 外 ， 
时 间 事 件 也 会 将 非常 耗 时 的 持久 化 操作 放 到 子 线 程 或 者 子 进程 执行 。 


4) 因为 时 间 事件 在 文件 事件 之 后 执行 ， 并 且 事 件 之 间 不 会 出 现 抢 
和 通常 会 比 时 间 事 件 设 定 的 到 达 时 间 
止 
表 12-1 记 录 了 一 次 完整 的 事件 调度 和 执行 过 程 。 
表 12-1 一 次 完整 的 事件 调度 和 执行 过 程 


开始 时 间 动作 

















0 Wo 一 个 在 100 毫秒 到 达 的 时 间 事 件 
11 ”| ”30 | 等待 文件 事件 
31 2 | 处 理 文件 事件 
51 5 等 待 文 件 事件 
85 | 处 理 文件 事件 


131 执行 时 间 事件 


表 12-1 记 录 的 事件 执行 过 程 同 显 了 上 面 列举 的 事件 调度 规则 中 的 规 
则 2、3、4: 





-因为 时 间 事 件 尚 未 到 达 ， 所 以 在 处 理 时 间 事 件 之 前 ， 服 务 器 已 经 
等 得 并 处 理 了 两 次 文件 事件 。 


.因为 处 理事 件 的 过 程 中 不 会 出 现 抢 占 ， 所 以 实际 处 理 时 间 事 件 的 
时 间 比 预定 的 100 毫 秒 慢 了 30 毫 秒 。 


12.4 重点 回顾 


Redis 服 务 器 是 一 个 事件 驱动 程序 ， 服 务 器 处 理 的 事件 分 为 时 间 事 
件 和 文件 事件 两 类 。 


.文件 事件 处 理 器 是 基于 Reactor 模 式 实现 的 网 络 通 信 程 序 。 
:文件 事件 是 对 套 接 字 操作 的 抽象 : 每 次 套 接 字 变 为 可 应 答 
Cacceptable) 、 可 写 (writable) 或 者 可 读 (readable〉 时， 相应 的 文件 
事件 就 会 产生 。 


.文件 事件 分 为 AE_READABLE 事 件 〈 读 事件 ) 和 AE_WRITABLE 
事件 〈 写 事件 ) 两 类 。 


时间 事 件 分 为 定时 事件 和 周期 性 事件 ， 定 时 事件 只 在 指定 的 时 间 
到 达 一 次 ， 而 周期 性 事件 则 每 隔 一 段 时 间 到 达 一 次 。 


.服务 器 在 一 般 情 况 下 只 执行 serverCron 函 数 一 个 时 间 事 件 ， 并 且 这 
个 事件 是 周期 性 事件 。 


文件 事件 和 时 间 事 件 之 间 是 合作 关系 ， 服 务 器 会 轮流 处 理 这 两 种 
事件 ， 并 且 处 理事 件 的 过 程 中 也 不 会 进行 抢占 。 


时间 事 件 的 实际 处 理 时 间 通 常会 比 设 定 的 到 达 时 间 晚 一 些 。 

















12.5 ”参考 资料 


《Pattern-Oriented Software Architecture, Volume 4:A Pattern 
Language for Distributed Computing》 第 11 章 中 的 《Reactor》 一 节 介 绍 了 
Reactor 模 型 的 定义 、 实 现 方 法 和 作用 。 


《Linux ”System ”Programming，Second ”Edition》 第 2 章 的 
《Multiplexed 1/O》 小 节 和 第 4 间 的 《Event Poll》 小 节 ， 以 及 《Unix 环 境 
高 级 编程 ， 第 2 版 》 的 14.5 节 ， 都 对 MO 多 路 复 用 及 其 相关 函数 进行 了 介 


绍 。 


第 13 章 ”客户 端 


Redis 服 务 占 是 典型 的 一 对 多 服务 器 程序 ， 一 个 服务 器 可 以 与 多 个 
客户 端 建立 网 络 连接 ， 每 个 客 尸 端 可 以 同 服 务 需 发 送 命令 请 求 ， 而 服务 
需 则 接收 并 处 理 客户 端 发 送 的 命令 请 求 ， 并 回 客 户 端 返回 命令 回复 。 


通过 使 用 由 LO 多 路 复 用 技术 实现 的 文件 事件 处 理 融 ，Redis 服 务 器 
0 0 Bs 


对 于 每 个 与 服务 器 进行 连接 的 客户 端 ， 服 务 器 都 为 这 些 客户 并 建立 
了 相应 的 redis.h/redisClient 结 构 〈 客 户 端 状态 ) ， 这 个 结构 保存 了 客户 
DU 以 及 执行 相关 功能 时 需要 用 到 的 数据 结构 ， 其 中 包 
舌 : 





客户 端的 套 接 字 描 述 符 。 

客户 端的 名 字 。 

客户 站 的 标志 值 Cflag) 。 

指向 客户 并 正在 使 用 的 数据 库 的 指针 ， 以 及 该 数据 库 的 号 码 。 


客户 新 当 前 要 执行 的 命令 、 命 令 的 参数 、 命 令 参 数 的 个 数 ， 以 及 
指向 命令 实现 函数 的 指针 。 


客户 端的 输入 缓冲 区 和 输出 缓冲 区 。 

客户 端的 复制 状态 信息 ， 以 及 进行 复制 所 需 的 数据 结构 。 
客户 端 执行 BRPOP、BLPOP 等 列表 阻塞 命令 时 使 用 的 数据 结构 。 
客户 端的 事务 状态 ， 以 及 执行 WATCH 命 令 时 用 到 的 数据 结构 。 
客户 端 执 行 发 布 与 订阅 功能 时 用 到 的 数据 结构 。 
客户 端的 身份 验证 标志 。 


客户 端的 创建 时 间 ， 客 户 端 和 服务 器 最 后 一 次 通信 的 时 间 ， 以 及 
客户 端的 输出 绥 冲 区 大 小 超出 软 性 限制 (soft limit) 的 时 间 。 


Redis 服 务 右 状态 结构 的 clients 属 性 是 一 个 链表 ， 这 个 链表 保存 了 所 
有 与 服务 器 连接 的 客户 端的 状态 结构 ， 对 客户 端 执 行 批量 操作 ， 或 者 查 
找 茶 个 指定 的 客户 器， 都 可 以 通过 过 历 clients 链 表 来 完成 : 





struct redisServer { 
Ee 
// 

一 个 链表 ， 保 在 了 所 有 客户 端 状态 
ist *clients; 


}; 





作为 例子 ， 图 13-1 展 示 了 一 个 与 三 个 客户 端 进行 连接 的 服务 器 ， 而 
图 13-2 则 展示 了 这 个 服务 器 的 clients 链 表 的 样子 。 





图 13-1 客户 端 与 服务 器 










redlisServer 
clients 


本 章 将 对 客户 站 状 态 的 各 个 属性 进行 介绍 ， 并 讲述 服务 器 创建 并 关 
闭 各 种 不 同类 型 的 客户 端的 方法 。 


















redisClient 


(客户 端 3) 


redisClient 


( 客 己 端 2) 


redisClient 


( 客 尸 高 1) 


图 13-2 clients 链表 





13.1 客户 端 属性 
客户 端 状态 包含 的 属性 可 以 分 为 两 类 ; 


一 类 是 比较 通用 的 属性 ， 这 些 属性 很 少 与 特定 功能 相关 ， 无 论 客 
户 端 执行 的 是 什么 工作 ， 它 们 都 要 用 到 这 些 属 性 。 


-另外 一 类 是 和 特定 功能 相关 的 属性 ， 比 如 操作 数据 库 时 需要 用 到 
的 db 属性 和 dictid 属 性 ， 执 行事 务 时 需要 用 到 的 mstate 属 性 ， 以 及 执行 
WATCH 命 令 时 需要 用 到 的 watched_keys 属 性 等 等 。 
进行 介绍 ， 至 于 那些 


本 章 将 对 客户 端 状 态 中 比较 通用 的 那 部 分 属性 进 
和 特定 功能 相关 的 属性 ， 则 会 在 相应 的 章节 进行 介绍 








13.1.1 套 接 字 描 述 符 
客户 并 状态 的 fd 属性 记录 了 客户 端正 在 使 用 的 套 接 字 摘 述 符 : 





typedef struct redisClient { 
i 
int fd; 


} redisclient; 





jj 根据 客户 端 美 型 的 不 同色 属性 的 值 可 以 是 -或者 是 大 于 -的 整 


: 伪 客 户 问 (fake client) 的 fd 属性 的 值 为 -1: 伪 客 户 端 处 理 的 命令 请 
求 来 源 于 AOF 文 件 或 者 Lua 肢 本， 而 不 是 网 络 ， 所 以 这 种 客户 端 不 需要 
套 接 字 连接 ， 目 然 也 不 需要 记录 套 接 字 搬 述 人 符 。 目 前 Redis 服 务 右 会 在 
两 个 地 方 用 到 伪 客 户 端 ， 一 个 用 于 载 入 AOF 文 件 并 还 原 数 据 库 状态 ， 而 
另 一 个 则 用 于 执行 Lua 脚 本 中 包含 的 Redis 命 令 。 


普通 客户 端的 fa 属性 的 值 为 大 于 -1 的 整数 : 普通 客户 端 使 用 套 接 字 
来 与 服务 铝 进 行 通 信 ， 所 以 服务 器 会 用 纪 属 性 来 记录 客 尸 端 套 接 字 的 描 
述 待 。 因 为 合法 的 套 接 字 描述 符 不 能 是 -1， 所 以 普通 客户 端的 套 接 字 描 
述 符 的 值 必然 是 大 于 -1 的 整数 。 








执行 CLIENT list 命 令 可 以 列 出 目前 所 有 连接 到 服务 器 的 普通 客户 
端 ， 命 令 输出 中 的 fd 域 显示 了 服务 器 连接 客户 端 所 使 用 的 套 接 字 描 述 
符 ; 





redis> CLIENT list 
addr=127.0.0.1:53428 fd=6 name= age=1242 i 和 5 未 
addr=127.0.0.1:53469 fd=7 name= age=4 idle= 





iT 交 守 
在 默认 情况 下 ， 一 个 连接 到 服务 器 的 客户 端 是 没有 名 字 的 。 


比如 在 下 面 展示 的 CLIENT list 命 令 示 例 中 ， 两 个 客户 端的 name 域 都 
是 空白 的 : 











redis> CLIENT list 
addr=127.0.0.1:53428 fd=6 name= age=1242 el ee 
addr=127.0.0.1:53469 fd=7 name= age=4 idle= 





使 用 CLIENT setname 命 令 可 以 为 客户 端 设 置 一 个 名 字 ， 让 客户 端的 
身份 变 得 更 清晰 。 


以 下 展示 的 是 客户 端 执行 CLIENT setmame 命 令 之 后 的 客户 端 列表 : 





redis> CLIENT list 
addr=127.0.0.1:53428 fd=6 name=message_queue age=2093 idle=0 ... 
addr=127.0.0.1:53469 fd=7 name=user_relationship age=855 idle=2 ... 





其 中 ， 第 一 个 客户 端的 名 字 古 message_ gueue， 我 们 可 以 猜测 它 
负责 处 理 消 恩 队列 的 客户 端 ， 第 二 个 客户 端的 名 字 ed 
我 们 可 以 猜测 它 为 负责 处 理 用 户 关 系 的 客户 端 。 


客户 端的 名 字 记 录 在 客户 端 状态 的 name 属 性 里 面 : 








typedef struct redisClient { 
i 
robj *name; 
// 


} redisclient; 





如 果 客 户 端 没有 为 自己 设置 名 字 ， 那 么 相应 客户 并 状态 的 name 属 性 


指 癌 NULL 指 针 ， 相 反 地 ， 如 末 客 户 疹 为 目 己 设置 了 名 字 ， 那 么 name 属 
性 将 指向 一 个 字符 串 对 象 ， 而 该 对 象 就 保存 着 客户 端的 名 字 。 


图 13-3 展 示 了 一 个 客户 端 状态 示例 ， 根 据 name 属 性 显示 ， 客 户 端的 
名 字 为 "message_queue'"。 


redisClient 


StringObject 
"message queue" 


图 13-3 ”name 属性 示例 












13.1.3 标志 


客户 问 的 标志 属性 fags 记 录 了 客户 端的 角色 (role) ， 以 及 客户 站 
目前 所 处 的 状态 : 





typedef struct redisClient { 
int flags; 


} redisclient; 





flags 属 性 的 值 可 以 是 单个 标志 : 





flags = <flag> 





也 可 以 是 多 个 标志 的 二 进 制 或 ， 比 如 : 





flags = <flag1> | <flag2> | ... 








每 个 标志 使 用 一 个 音量 表示 ， 一 部 分 标志 记录 了 客户 端的 角色 : 


-在 主 从 服务 器 进行 复制 操作 时 ， 主 服务 器 会 成 为 从 服务 器 的 客户 


端 ， 而 从 服务 器 也 会 成 为 主 服 务 器 的 客户 端 。REDIS_MASTER 标 志 表 
示 客 户 端 代表 的 是 一 个 主 服 务 器 ，REDIS_SLAVE 标 志 表 示 客 户 端 代 表 
的 是 一 个 从 服务 器 。 
:REDIS_PRE_PSYNC 标 志 表 示 客 户 端 代表 的 是 一 个 版 本 低 于 
Redis2.8 的 从 服务 器 ， 主 服务 器 不 能 使 用 PSYNC 命 令 与 这 个 从 服务 器 进 
行 同步 。 这 个 标志 只 能 在 REDIS_SLAVE 标 志 人 处 于 打开 状态 时 使 用 。 


.REDIS_LUA_CLIENT 标 识 表示 客户 端 是 专门 用 于 处 理 Lua 脚 本 里 
面包 含 的 Redis 命 令 的 伪 客 户 端 。 


而 另外 一 部 分 标志 则 记录 了 客户 端 目前 所 处 的 状态 : 


.REDIS_MONITOR 标 志 表 示 客 户 端正 在 执行 MONITOR 命 令 。 








:REDIS_UNIX_SOCKET 标 志 表 示 服 务 器 使 用 UNIX 套 接 字 来 连接 客 
户 端 。 


.REDIS_BLOCKED 标 志 表 示 客 户 端正 在 被 BRPOP、BLPOP 等 命令 
阻塞 O 


.REDIS_UNBLOCKED 标 志 表 示 客 户 端 已 经 从 REDIS_BLOCKED 标 
所 表示 的 阻塞 状态 中 脱离 出 来 ， 不 再 阻塞 。REDIS_UNBLOCKED 标 


-二 
志 只 能 在 REDIS_ BLOCKED 标 志 已 经 打开 的 情况 下 使 用 。 





-REDIS_MULTI 标 志 表 示 客 户 端正 在 执行 事务 。 


.REDIS_DIRTY_CAS 标 志 表 示 事 务 使 用 WATCH 命 令 监 视 的 数据 库 
键 已 经 被 修改 ，REDIS_DIRTY_EXEC 标 志 表 示 事 务 在 命令 入 队 时 出 现 
了 错误 ， 以 上 两 个 标志 都 表示 事务 的 安全 性 已 经 被 破坏 ， 只 要 这 两 个 标 
记 中 的 任意 一 个 被 打开 ，EXEC 命 令 必 然 会 执行 失败 。 这 两 个 标志 只 能 
在 客户 端 打 开 了 REDIS MULTI 标志 的 情况 下 使 用 。 


“REDIS_CLOSE_ASAP 标 志 表 示 客 户 端 的 输出 绥 冲 区 大 小 超出 了 服 
务 器 允许 的 范围 ， 服 务 器 会 在 下 一 次 执行 sServerCron 函 数 时 关闭 这 个 客 
户 端 ， 以 免 服 务 器 的 稳定 性 受到 这 个 客户 端 影响 。 积 存在 输出 缓冲 区 中 
的 所 有 内 容 会 直接 被 释放 ， 不 会 返回 给 客户 问 。 


-REDIS_CLOSE_AFTER_REPLY 标 志 表 示 有 用 户 对 这 个 客户 端 执 























行 了 CLIENT KILEL 命 令 ， 或 者 客户 端 发 送 给 服务 器 的 命令 请 求 中 包含 了 
错误 的 协议 内 容 。 服 务 器 会 将 客户 端 积 存在 输出 缓冲 区 中 的 所 有 内 容 发 
送 给 客户 端 ， 然 后 关闭 客户 端 。 


:REDIS_ASKING 标 志 表 示 客 户 端 同 集 群 节点 (运行 在 集群 模式 下 
的 服务 器 ) 发 送 了 ASKING 命 令 。 


-REDIS_FORCE_AOF 标 志 强 制服 务 器 将 当前 执行 的 命令 写 入 到 
AOF 文 件 里 面 ，REDIS_FORCE_REPL 标 志 强 制 主 服务 器 将 当前 执行 的 
命令 复制 给 所 有 从 服务 器 。 执 行 PUBSUB 命 令 会 使 客户 端 打 开 
REDIS_FORCE_AOF 标 志 ， 执 行 SCRIPT ”LOAD 命令 会 使 客户 端 打开 
REDIS_FORCE_AOF 标 志和 REDIS_FORCE_REPL 标 志 。 


.在 主 从 服务 器 进行 命令 传播 期 间 ， 从 服务 器 需要 向 主 服 务 器 发 送 
REPLICATION ACK 命 令 ， 在 发 送 这 个 命令 之 前 ， 从 服务 器 必须 打开 主 
服务 器 对 应 的 客户 端的 REDIS_ MASTER_FORCE_REPLY 标 志 ， 否 则 发 
送 操作 会 被 拒绝 执行 。 


以 上 提 到 的 所 有 标志 都 定义 在 redis.h 文 件 里 面 。 











PUBSUB 命 令 和 SCRIPT LOAD 命 令 的 特殊 性 


通常 情况 下 ，Redis 只 会 将 那些 对 数据 库 进 行 了 修改 的 命令 写 
入 到 AOF 文 件 ， 并 复制 到 各 个 从 服务 器 。 如 果 一 个 命令 没有 对 数据 
库 进 行 任何 修改 ， 那 么 它 就 会 被 认为 是 只 读 命 令 ， 这 个 命令 不 会 被 
写 入 到 AOF 文 件 ， 也 不 会 被 复制 到 从 服务 器 。 


以 上 规则 适用 于 绝 大 部 分 Redis 命 令 ， 但 PUBSUB 命 令 和 
SCRIPT LOAD 命令 是 其 中 的 例外 。PUBSUB 命 令 虽 然 没 有 修改 数 
据 库 ， 但 PUBSUB 命 令 癌 频道 的 所 有 订阅 者 发 送 消 息 这 一 行为 带 有 
副作用 ， 接 收 到 消息 的 所 有 客户 端的 状态 都 会 因为 这 个 命令 而 改 
变 。 因 此 ， 服 务 器 需要 使 用 REDIS_FORCE_AOF 标 志 ， 强 制 将 这 个 
命令 写 入 AOF 文 件 ， 这 样 在 将 来 载 入 AOF 文 件 时 ， 服 务 器 就 可 以 再 
次 执行 相同 的 PUBSUB 命 令 ， 并 产生 相同 的 副作用 。SCRIPT 
LOAD 命 令 的 情况 与 PUBSUB 命 令 类 似 : 虽然 SCRIPT LOAD 命 令 没 
有 修改 数据 库 ， 但 它 修 改 了 服务 器 状态 ， 所 以 它 是 一 个 带 有 副作用 





的 命令 ， 服 务 器 需要 使 用 REDIS_FORCE_AOF 标 志 ， 强 制 将 这 个 命 
Ee 使 得 将 来 在 载 入 AOF 文 件 时 ， 服 务 器 可 以 产生 相 
同 的 副作用 。 


另外 ， 为 了 让 主 服务 器 和 从 服务 器 都 可 以 正确 地 载 入 SCRIPT 
LOAD 命 令 指定 的 脚本 ， 服 务 喜 需要 使 用 REDIS_FORCE_REPL 标 
志 ， 强 制 将 SCRIPT LOAD 命 令 复 制 给 所 有 从 服务 器 。 





以 下 是 一 些 flags 属 性 的 例子 : 





# 
客户 端 是 一 个 主 服务 器 
REDIS_MASTER 


# 
客户 端正 在 被 列表 命令 阻塞 

REDIS_BLOCKED 

# 

客户 端正 在 执行 事务 ， 但 事务 的 安全 性 已 被 破坏 
REDIS_MULTI | REDIS_DIRTY_CAS 





# 
客户 端 是 一 个 从 服务 器 ， 并 且 版 本 低 于 Redis 2.8 
REDIS_SLAVE | REDIS_PRE_PSYNC 

# 











这 是 专门 用 于 执行 Lua 

脚本 包含 的 Redis 

命令 的 伪 客 户 端 

# 

它 强 制服 务 器 将 当前 执行 的 命令 写 入 AOF 


文件 ， 并 复制 给 从 服务 器 
REDIS_LUA CLIENT | REDIS_ FORCE AOF| REDIS_FORCE_REPL 














13.1.4 ”输入 缓冲 区 
客户 端 状 态 的 输入 绥 冲 区 用 于 保存 客户 端 发 送 的 命令 请 求 : 











typedef struct redisClient { 
A 
sds querybuf; 


} redisclient; 





举 个 例子 ， 如 果 客 户 端 向 服务 嚣 发送 了 以 下 命令 请 求 : 





SET key value 





那么 客户 端 状 态 的 querybuf 属 性 将 是 一 个 包含 以 下 内 容 的 SDS 值 : 





*3\r\n$3\r\nSET\r\n$3\r\nkey\r\n$5\r\nvalue\r\n 





图 13-4 展 示 了 这 个 SDS 值 以 及 querybuf 属 性 的 样子 。 
和 输入 缓冲 区 的 大 小 会 根据 输入 内 容 动 态 地 缩小 或 者 扩大 ， 但 它 的 最 
大 大 小 不 能 超过 1GB， 人 否则 服务 器 将 关闭 这 个 客户 端 。 


本 












eT oes To 
图 13-4 ”querybuf 属 性 示例 
13.1.5 ”命令 与 命令 参数 
在 服务 器 将 客户 端 发 送 的 命令 请 求 保存 到 客户 端 状态 的 querybuf 属 


性 之 后 ， 服 务 器 将 对 命令 请 求 的 内 容 进 行 分 析 ， 并 将 得 出 的 命令 参数 以 
及 命令 参数 的 个 数 分 别 保存 到 客户 端 状 态 的 argv 属 性 和 argc 属 性 : 





typedef struct redisClient { 
Ra 


robj **argv; 
int argc; 


} redisclient; 








argv 属 性 是 一 个 数组 ， 数 组 中 的 每 个 项 都 是 一 个 字符 串 对 象 ， 其 中 
argv[0] 是 要 执行 的 命令 ， 而 之 后 的 其 他 项 则 是 传 给 命令 的 参数 。 


argc 属 性 则 负责 记录 argv 数 组 的 长 度 。 
举 个 例子 ， 对 于 图 13-4 所 示 的 querybuf 属 性 来 说 ， 服 务 器 将 分 析 并 





创建 图 13-5 所 示 的 argv 属 性 和 argc 属 性 。 








redisClient 


argv[0] argv[1] argv[1] 
Strlngobject | Strlngobject | StringObject 
TomTn "key" Wowrallue"™ 


图 13-5”argv 属 性 和 argc 属 性 示例 


注意 ， 在 图 13-5 展 示 的 客户 端 状 态 中 ，argc 属 性 的 值 为 9， 而 不 是 
2， 因 为 命令 的 名 字 "SET" 本 身 也 是 一 个 参数 。 


13.1.6 命令 的 实现 函数 


当 服务 器 从 协议 内 容 中 分 析 并 得 出 argv 属 性 和 argc 属 性 的 值 之 后 ， 
项 argv[0] 的 值 ， 在 命令 表 中 查找 命令 所 对 应 的 命令 实现 函 






图 13-6 展 示 了 一 个 命令 表示 例 ， 该 表 是 一 个 字典 ， 字 典 的 键 是 一 个 
SDS 结 构 ， 保 存 了 命令 的 名 字 ， 字 上 典 的 值 是 命令 所 对 应 的 redisCommand 
结构 ， 这 个 结构 保存 了 命令 的 实现 函数 、 命 令 的 标志 、 命 令 应 该 给 定 的 
参数 个 数 、 命 令 的 总 执行 次 数 和 总 消耗 时 长 等 统计 信息 。 






















图 13-6 ”命令 表 


当 程 序 在 命令 表 中 成 功 找到 argv[0] 所 对 应 的 redisCommand 结 构 时 ， 
它 会 将 客户 端 状 态 的 cmd 指 针 指 向 这 个 结构 : 





typedef struct redisClient { 
Rs 





之 后 ， 服 务 器 束 可 以 使 用 cmd 属 性 所 指 癌 的 redisCommand 结 构 ， 以 
及 argv、argc 属 性 中 保存 的 命令 参数 信息 ， 调 用 命令 实现 函数 ， 执 行 客 
户 端 指定 的 命令 。 


图 13-7 演 示 了 服务 器 在 argv[0] 为 "SET" 时 ， 查 找 命令 表 并 将 客户 端 
状态 的 cmd 指 针 指 向 目标 redisCommand 结 构 的 整个 过 程 。 

















redisCommand 


1) 查找 "SET" 对 应 的 
redisCommand 结构 


| | 
图 13-7 查找 命令 并 设置 cmd 属 性 


针对 命令 表 的 奉 找 操作 不 区 分 输入 字母 的 大 小 写 ， 所 以 无 论 argv[0] 
是 "SET'"、"set"、 或 者 "SeT" 等 等 ， 碍 找 的 结果 都 古 相同 的 。 


13.1.7 输出 缓冲 区 


执行 命令 所 得 的 命令 回复 会 被 保存 在 客户 站 状态 的 输出 缓冲 区 里 
面 ， 每 个 客户 问 都 有 两 个 输出 缓冲 区 可 用 ， 一 个 缓冲 区 的 大 小 是 固定 
的 ， 男 一 个 缓冲 区 的 大 小 是 可 变 的 : 

固定 大 小 的 缓冲 区 用 于 保存 那些 长 度 比 较 小 的 回复 ， 比 如 OK、 简 
短 的 字符 串 值 、 整 数值 、 错 误 回 复 等 等 。 


:可 变 大 小 的 缓冲 区 用 于 保存 那些 长 度 比 较 大 的 回复 ， 比 如 一 个 非 
党 长 的 字符 串 值 ， 一 个 由 很 多 项 组 成 的 列表 ， 一 个 包含 了 很 多 元 素 的 集 


-人 千 Par 
合 等 等 。 













客户 并 的 固定 大 小 缓冲 区 由 buf 和 bufpos 两 个 属性 组 成 : 


typedef struct redisClient { 


char buf[REDIS_REPLY_CHUNK_BYTES] 


int bufpos 


} redisCclient 





buf 是 一 个 大 小 为 REDIS_ REPLY_CHUNK_BYTES 字 节 的 字 节 数 
组 ， 而 bufpos 属 性 则 记录 了 buf 数 组 目前 已 使 用 的 字 节 数量 。 


REDIS REPLY_CHUNK_BYTES 常 量 目前 的 默认 值 为 16*1024， 也 
即 是 说 ，buf 数 组 的 默认 大 小 为 16KB。 


图 13-8 展 示 了 一 个 使 用 固定 大 小 缓冲 区 来 保存 返回 值 +OK\rn 的 例 


redisClient 











hal Cd ed i wd a ee 






bufpos 
5 


图 13-8 ”固定 大 小 缓冲 区 示例 


当 buf 数 组 的 空间 已 经 用 完 ， 或 者 回复 因为 太 大 而 没 办 法 放 进 buf 数 
组 里 面 时 ， 服 务 需 就 会 开始 使 用 可 变 大 小 缓冲 区 。 


可 变 大 小 绥 冲 区 由 reply 链 表 和 一 个 或 多 个 字符 串 对 象 组 成 : 











typedef struct redisClient { 








通过 使 用 链表 来 连接 多 个 字符 串 对 象 ， 服 务 嚣 可 以 为 客户 端 保 存 一 
个 非常 长 的 命令 回复 ， 而 不 必 受 到 固定 大 小 缓冲 区 16KB 大 小 的 限制 。 


图 13-9 展 示 了 一 个 包含 三 个 字符 串 对 象 的 reply 链 表 。 





redisClient 





StringObject StringObject 


图 13-9 ”可 变 大 小 缓冲 区 示例 


Stringobject 


13.1.8 身份 验证 


容 户 并 状态 的 authenticated 属 性 用 于 记录 客户 端 是 否 通 过 了 身份 验 
证 : 











typedef struct redisClient { 
int authenticated; 


} redisclient; 











如 果 authenticated 的 值 为 0， 那 么 表示 客户 端 未 通过 身份 验证 : 如 果 
authenticated 的 值 为 1， 那 么 表示 客户 端 已 经 通过 了 身份 验证 。 


举 个 例子 ， 对 于 一 个 尚未 进行 身份 验证 的 客户 端 来 说 ， 客 户 端 状态 
的 authenticated 属 性 将 如 图 13-10 所 示 。 


redisClient 


authenticated 
0 
图 13-10 ”未 验证 身份 时 的 客户 端 状 态 


当 客 户 端 authenticated 属 性 的 值 为 0 时 ， 除 了 AUTH 命 令 之 外 ， 客 户 
端 发 送 的 所 有 其 他 命令 都 会 被 服务 器 拒绝 执行 : 








redis> PING 

(error) NOAUTH Authentication required . 
redis> SET msg "hello world" 

(error) NOAUTH Authentication required . 





当 客 户 端 通过 AUTH 命 令 成 功 进行 身份 验证 之 后 ， 客 户 端 状 态 
authenticated 属 性 的 值 就 会 从 0 变 为 1， 如 图 13-11 所 示 ， 这 时 客户 并 束 可 
以 像 往常 一 样 癌 服务 器 发 送 命令 请 求 了 : 





# authenticated 
属性 的 值 从 0 
变 为 1 
redis> AUTH 123321 
0 
redis> PING 

NG 


PO 
redis> SET msg "hello world" 
OK 





redisClient 
authenticated 
LL 


图 13-11 已经 通过 映 份 验证 的 客户 端 状态 
authenticated 属 性 仪 在 服务 器 启用 了 壬 份 验证 功能 时 使 用 。 如 果 服 
务 器 没有 启用 续 份 验证 功能 的 话 ， 那 么 即使 authenticated 属 性 的 值 为 
0〈 这 是 默认 值 ) ， 服 务 器 也 不 会 拒绝 执行 客户 端 发 送 的 命令 请 求 。 


关于 服务 器 身份 验证 的 更 多 信息 可 以 参考 示例 配置 文件 对 
requirepass 选 项 的 相关 说 明 。 


13.1.9 ”时间 
最 后 ， 客 户 端 还 有 几 个 和 时 间 有 关 的 属性 : 








typedef struct redisClient { 
time_t ctime; 
time_t lastinteraction; 
time_t obuf_soft_limit_reached_time; 


Foe 
} redisclient; 


ctime 属 性 记录 了 创建 客户 端的 时 间 ， 这 个 时 间 可 以 用 来 计算 客户 
端 与 服务 器 已 经 连接 了 多 少 秒 ，CLIENT list 命令 的 age 域 记录 了 这 个 秒 
数 ， 





redis> CLIENT list 
addr=127.0.0.1: 428 [> bs 








lastinteraction 属 性 记录 了 客户 端 与 服务 器 最 后 一 次 进行 互动 
Cinteraction ) 的 时 间 ， 这 里 的 二 动 可 以 是 客户 端 癌 服务 器 发 送 命令 请 
求 ， 也 可 以 是 服务 器 同 客 户 端 发 送 命令 回复 。 


lastinteraction 属 性 可 以 用 来 计算 客户 端的 空转 〈idle) 时间 ， 也 即 
是 ， 距 离 客户 端 与 服务 器 最 后 一 次 进行 互动 以 来 ， 已 经 过 去 了 多 少 秒 ， 
CLIENT list 命 令 的 idle 域 记录 了 这 个 秒 数 : 








Fedis CLIENT 本 3 
addr=127.0.0.1: 53428 :a Tdle=12. 33 





obuf_soft_limit_reached_time 属 性 记录 了 输出 缓冲 区 第 一 次 到 达 软 性 
限制 (soft limit) 的 时 间 ， 稍 后 介绍 输出 缓冲 区 大 小 限制 的 时 候 会 详细 
说 明 这 个 属性 的 作用 。 


13.2 ”客户 端的 创建 与 关闭 


服务 器 使 用 不 同 的 方式 来 创建 和 关闭 不 同类 型 的 客户 端 ， 本 节 将 介 
绍 服务 器 创建 和 关闭 客户 端的 方法 。 
13.2.1 创建 普通 客户 端 

如 果 客 户 端 是 通过 网 络 连接 与 服务 器 进行 连接 的 普通 客户 端 ， 那 么 
在 客户 端 使 用 connect 函 数 连接 到 服务 嚣 时， 服务 器 就 会 调用 连接 事件 处 
理 嚣 〈 在 第 12 音 有 介绍 ) ， 为 客户 端 创 建 相应 的 客户 端 状态 ， 并 将 这 个 
新 的 客户 端 状 态 腔 加 到 服务 器 状态 结构 clients 链 表 的 末尾 。 

举 个 例子 ， 假 设 当 前 有 cl 和 c2 两 个 普通 客户 端正 在 连接 服务 器 ， 那 
么 当 一 个 新 的 普通 客户 端 c3 连 接 到 服务 嚣 之后， 服务 器 会 将 c3 所 对 应 的 
客户 症状 态 添 加 到 dlients 链 表 的 末尾 ， 如 图 13-12 所 示 ， 其 中 用 虚线 包围 
的 束 是 服务 器 为 c3 新 创建 的 客户 端 状态 。 


redlsServer 


















redisClient redisClient ! redisClient : 
aa (客户 端 cl ) (客户 端 c2 ) (客户 端 c3) | 





图 13-12 ”服务 器 状态 结构 的 clients 链 表 
13.2.2 ”关闭 普通 客户 端 
一 个 普通 客户 端 可 以 因为 多 种 原因 而 被 关闭 : 


.如果 客 户 疹 进 程 退 出 或 者 被 杀 死 ， 那 么 客户 器 与 服务 怖 之 间 的 网 
络 连接 将 被 关闭 ， 从 而 造成 客户 端 和 被 关闭 。 


如果 客户 端 回 服务 器 发 送 了 市 有 不 符合 协议 格式 的 命令 请 求 ， 那 
么 这 个 客户 并 也 会 被 服务 器 关闭 。 


.如 果 客 户 端 成 为 了 CLIENT ”KILL 命令 的 目标 ， 那 么 它 也 会 被 关 








闭 。 


.如 果 用 户 为 服务 器 设置 了 timeout 配 置 选 项 ， 那 么 当 客 户 端的 空转 
时 间 超 过 timeout 选 项 设置 的 值 时 ， 客 户 端 将 被 关闭 。 不 过 timeout 选 项 有 
一 些 例外 情况 : 如 果 客 户 端 是 主 服 务 器 (打开 了 REDIS_MASTER 标 
志 ) ， 从 服务 器 (打开 了 REDIS_SLAVE 标 志 ) ， 正 在 被 BLPOP 等 命令 
阻塞 (打开 了 REDIS_BLOCKED 标 志 ) ， 或 者 正在 执行 SUBSCRIBE、 
PSUBSCRIBE 等 订阅 命令 ， 那 么 即使 客户 端的 空转 时 间 超 过 了 timeout 选 
项 的 值 ， 客 户 端 也 不 会 被 服务 器 关闭 。 


如果 客户 疹 发 送 的 命令 请 求 的 大 小 超过 了 输入 缓冲 区 的 限制 大 小 
(默认 为 1GB) ， 那 么 这 个 客户 端 会 被 服务 器 关闭 。 


如果 要 及 送 给 客户 端的 命令 回复 的 大 小 超过 了 输出 缓冲 区 的 限制 
大 小 ， 那 么 这 个 客户 端 会 被 服务 器 关闭 。 


前 面 介绍 输出 缓冲 区 的 时 候 提 到 过 ， 可 变 大 小 缓冲 区 由 一 个 链表 和 
任意 多 个 字符 串 对 象 组 成 ， 理 论 上 来 说 ， 这 个 缓冲 区 可 以 保存 任意 长 的 


命令 回复 。 


但 是 ， 为 了 避免 客户 端的 回复 过 大 ， 占 用 过 多 的 服务 器 资源 ， 服 务 
名 会 时 刻 检查 客户 病 的 输出 缓冲 区 的 大 小 ， 并 在 缓冲 区 的 大 小 超出 范围 
时 ， 执 行 相应 的 限制 操作 。 


服务 器 使 用 两 种 模式 来 限制 客户 端 输出 缓冲 区 的 大 小 : 


-硬性 限制 (hard limit) : 如 果 输 出 缓冲 区 的 大 小 超过 了 便 性 限制 
所 设置 的 大 小 ， 那 么 服务 器 立即 关闭 客户 端 。 


. 软 性 限制 〈soft limit) : 如 果 输 出 缓冲 区 的 大 小 超过 了 软 性 限制 所 
设置 的 大 小 ， 但 还 没 超过 硬性 限制 ， 那 么 服务 器 将 使 用 客户 端 状 态 结构 
的 obuf_soft_limit_reached_time 属 性 记录 下 客户 端 到 达 软 性 限制 的 起 始 时 
间 ; 之 后 服务 器 会 继续 监视 客户 端 ， 如 果 输 出 缓冲 区 的 大 小 一 直 超 出 软 
性 限制 ， 并 且 持 续 时 间 超 过 服务 器 设 定 的 时 长 ， 那 么 服务 器 将 关闭 客户 
端 ， 相 反 地 ， 如 果 输 出 缓冲 区 的 大 小 在 指定 时 间 之 内 ， 不 再 超出 软 性 限 
制 ， 那 么 客户 端 就 不 会 被 关闭 ， 并 且 obuf_soft_limit_reached_time 属 性 的 
值 也 会 被 清 零 。 








使 用 client- output-buffer- limit 选 项 可 以 为 普通 客户 端 、 从 服务 器 客户 
端 、 执 行 发 布 与 订阅 功能 的 客户 问 分 别 设置 不 同 的 软 性 限制 和 硬性 限 
制 ， 该 选项 的 格式 为 : 





client-output-buffer-limit <class> <hard limit> <soft limit> <soft seconds> 





以 下 是 三 个 设置 示例 : 





nt- r-limit normal 9 
client-output-buffer-limit slave 256 和 64mb 60 
client-output-buffer-limit pubsub 32mb 8mb 60 





第 一 行 设置 将 普通 客户 端的 人 硬性 限制 和 软 性 限制 都 设置 为 0%， 表 示 
不 限制 客户 端的 输出 缓冲 区 大 小 。 


第 二 行 设 置 将 从 服务 器 客户 端的 硬性 限制 设置 为 256MB， 而 软 性 限 
制 设置 为 4MB， 软 性 限制 的 时 长 为 60 秒 。 


第 三 行 设置 将 执行 发 布 与 订阅 功能 的 客户 端的 硬性 限制 设置 为 
32MB， 软 性 限制 设置 为 9MB， 软 性 限制 的 时 长 为 60 秒 。 


关于 dlient-output-buffer-limit 选 项 的 更 多 用 法 ， 可 以 参考 示例 配置 文 
件 redis.conf。 


13.2.3 ”Lua 脚 本 的 伪 客 户 端 


服务 器 会 企 初 始 化 时 创建 员 贡 执行 Lua 脚 本 中 包含 的 Redis 命 令 的 伪 
客户 端 ， 并 将 这 个 伪 客 户 端 关联 在 服务 器 状态 结构 的 Jua_client 属 性 中 : 








lua_client 伪 客户 端 在 服务 器 运行 的 整个 生命 期 中 会 一 直 存 在 ， 只 有 
服务 器 被 天 财 时 ， 这 个 客户 端 才 会 被 关闭 。 


13.2.4 AOF 文 件 的 伪 客 户 端 


服务 器 在 载 入 AOF 文 件 时 ， 会 创建 用 于 执行 AOE 文 件 包 含 的 Redis 
命令 的 伪 客 户 端 ， 并 在 载 入 完成 之 后 ， 关 闭 这 个 伪 客 户 端 。 


13.3 重点 回顾 


服务 喜 状 态 结构 使 用 clients 链 表 连 接 起 多 个 客户 疹 状 态 ， 新 添加 的 
客户 端 状 态 会 被 放 到 链表 的 末尾 。 


-客户 端 状 态 的 flags 属 性 使 用 不 同 标 志 来 表示 客户 端的 角色 ， 以 及 
客户 端 当前 所 处 的 状态 。 


-输入 缓冲 区 记录 了 客户 并 发 送 的 命令 请 求 ， 这 个 缓冲 区 的 大 小 不 
能 超过 1GB。 


.命令 的 参数 和 参数 个 数 会 被 记录 在 客户 端 状 态 的 argv 和 argc 属 性 里 
面 ， 而 cmd 属 性 则 记录 了 客户 端 要 执行 命令 的 实现 函数 。 


客户 器 有 固定 大 小 缓冲 区 和 可 变 大 小 缓冲 区 两 种 缓冲 区 可 用 ， 其 
中 国定 大 小 缓冲 区 的 最 大 大 小 为 16KKB， 而 可 变 大 小 缓冲 区 的 最 大 大 小 
不 能 超过 服务 器 设置 的 硬性 限制 值 。 


输出 缓冲 区 限制 值 有 两 种 ， 如 果 输 出 缓冲 区 的 大 小 超过 了 服务 器 
设置 的 硬性 限制 ， 那 么 客户 端 会 侯 立 即 天 闭 ;， 除 此 之 外 ， 如 果 客 户 端 在 
一 定时 间 内 ， 一 直 超 过 服务 器 设置 的 软 性 限制 ， 那 么 客户 端 也 会 被 天 
闭 。 


: 当 一 个 客户 端 通过 网 络 连接 连 上 服务 器 时 ， 服 务 器 会 为 这 个 客户 
端 创建 相应 的 客户 端 状 态 。 网 络 连 接 关 闭 、 发 送 了 不 合 协 议 格式 的 命令 
请 求 、 成 为 CLIENT KILL 命 令 的 目标 、 空 转 时 间 超 时 、 输 出 缓冲 区 的 大 
小 超出 限制 ， 以 上 这 些 原因 都 会 造成 客户 端 被 关闭 。 


:处理 Lua 脚 本 的 伪 客 户 端 在 服务 器 初始 化 时 创建 ， 这 个 客户 端 会 一 
直 存 在 ， 直 到 服务 器 关闭 。 


- 载 入 AOF 文 件 时 使 用 的 伪 客 户 端 在 载 入 工作 开始 时 动态 创建 ， 载 
入 工作 完毕 之 后 关闭 。 














第 14 章 ”服务 器 


Redis 服 务 需 负责 与 多 个 客户 端 建立 网 络 连接 ， 处 理 客 户 瑞 发 送 的 
命令 请 求 ， 在 数据 库 中 保存 客户 端 执行 命令 摧 产 生 的 数据 ， 并 通过 资源 
管理 来 维持 服务 右上 自身 的 运转 。 


本 章 的 第 一 节 将 以 服务 器 执行 SET 命 令 的 过 程 作为 例子 ， 展 示 服 务 
器 处 理 命 令 请 求 的 整个 过 程 ， 说 明 在 执行 命令 的 过 程 中 ， 服 务 器 和 客户 
端 进行 了 什么 交互 ， 服 务 器 中 的 各 个 不 同 组 件 又 是 如 何 协作 的 ， 等 等 。 

本 章 的 第 二 节 将 对 serverCron 函 数 进行 介绍 ， 详 细 列 举 这 个 函数 执 
行 的 操作 ， 并 说 明 这 些 操作 对 于 服务 器 维持 正常 运行 有 何 帮 助 。 


本 章 的 最 后 一 市 将 对 服务 器 的 局 动 过 程 进 行 介绍 ， 通 过 了 解 Redis 
服务 器 的 启动 过 程 可 以 知道 ， 在 司 动 服务 器 程序 、 直 到 服务 器 可 以 接受 
客户 端 命 令 请 求 的 这 段 时 间 里 ， 服 务 器 都 做 了 些 什么 准备 工作 。 





14.1 命令 请 求 的 执行 过 程 


一 个 命令 请 求 从 发 送 到 获得 回复 的 过 程 中 ， 客 户 问 和 服务 器 需要 完 
成 一 系列 操作 。 举 个 例子 ， 如 有 果 我 们 使 用 客户 端 执行 以 下 命令 : 








那么 从 客户 端 发 送 SET KEY VALUE 命令 到 获得 回复 OK 期 间 ， 客 户 
端 和 服务 器 共 需 要 执行 以 下 操作 : 
1) 客户 端 问 服务 句 发 送 命令 请 求 SET KEY VALUE。 


2) 服务 器 接收 并 处理 客 户 端 发 来 的 命令 请 求 SET KEY VALUE， 
在 数据 库 中 进行 设置 操作 ， 并 产生 命令 回复 OK。 

3) 服务 器 将 命令 回复 OK 发 送 给 客户 端 。 

4) 客户 端 接收 服务 器 返回 的 命令 回复 OK， 并 将 这 个 回复 打印 给 用 
户 观 看 。 


本 节 接 下 来 的 内 容 将 对 这 些 操作 的 执行 细节 进行 补充 ， 详 细 地 说 明 
客户 端 和 服务 器 在 执行 命令 请 求 时 所 做 的 各 种 工作 。 


14.1.1 发 送 命令 请 求 
Redis 服 务 器 的 命令 请 求 来 自 Redis 客 户 端 ， 当 用 户 在 客户 端 中 键入 
一 个 命令 请 求 时 ， 客 户 端 会 将 这 个 命令 请 求 转换 成 协议 格式 ， 然 后 通过 


0 0 
14-1 所 示 。 











将 命令 请 求 转换 成 协议 格式 
键入 命令 请 求 然后 发 送 


用 户 “一 省 户 前 一 一 服务 器 


图 14-1 客户 端 接收 并 发 送 命令 请 求 的 过 程 








举 个 例子 ， 假 设 用 户 在 客户 端 键入 了 命令 : 





SET KEY VALUE 





那么 客户 端 会 将 这 个 命令 转换 成 协议 : 





*3\r\n$3\r\nSET\r\n$3\r\nKEY\r\n$5\r\nVALUE\r\n 





然后 将 这 段 协议 内 容 发 送 给 服务 如 。 
14.1.2 ” 读 取 命令 请 求 


当 客 户 端 与 服务 器 之 间 的 连接 套 接 字 因为 客户 端的 写 入 而 变 得 可 读 
时 ， 服 务 器 将 调用 命令 请 求 处 理 器 来 执行 以 下 操作 : 

1) 读 取 套 接 字 中 协议 格式 的 命令 请 求 ， 并 将 其 保存 到 客户 端 状态 
的 输入 绥 冲 区 里 面 。 

2) 对 输入 绥 冲 区 中 的 命令 请 求 进行 分 析 ， 提 取出 命令 请 求 中 包含 
的 命令 参数 ， 以 及 命令 参数 的 个 数 ， 然 后 分 别 将 参数 和 参数 个 数 保存 到 
客户 并 状态 的 argv 属 性 和 argc 属 性 里 面 。 

3) 调用 命令 执行 器 ， 执 行 客户 端 指定 的 命令 。 


继续 用 上 一 个 小 节 的 SET 命 令 为 例子 ， 图 14-2 展 示 了 程序 将 命令 请 
求 保存 到 客户 端 状态 的 输入 缓冲 区 之 后 ， 客 户 端 状态 的 样子 。 
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图 14-2 ”客户 端 状 态 中 的 命令 请 求 
之 后 ， 分 析 程 序 将 对 输入 缓冲 区 中 的 协议 进行 分 析 : 





*3\r\n$3\r\nSET\r\n$3\r\nKEY\r \n$5\r \nVALUE\r\n 





并 将 得 出 的 分 析 结 果 保 存 到 客户 端 状 态 的 argv 属 性 和 argc 属 性 里 
面 ， 如 图 14-3 所 示 。 


redisClient 












Sttingobject | StringObject | StringObject 
SE WKEY" "VALUE | 


图 14-3 ”客户 端 状态 的 argv 属 性 和 argc 属 性 


之 后 ， 服 务 占 将 通过 调用 命令 执行 占 来 完成 执行 命令 所 需 的 余下 步 
又 ， 以 下 几 个 小 节 将 分 别 介绍 命令 执行 器 所 执行 的 工作 。 


14.1.3 ”命令 执行 器 (1) : 查找 命令 实现 













命令 执行 器 要 做 的 第 一 件 事 束 是 根据 客户 端 状态 的 argv[0] 参 数 ， 在 
命令 表 (command table〉 中 查找 参数 所 指定 的 命令 ， 并 将 找到 的 命令 保 
存 到 客户 端 状态 的 cmd 属 性 里 面 。 


命令 表 是 一 个 字典 ， 字 典 的 键 是 一 个 个 命令 名 字 ， 比 
如 "set"、"get"、"del" 等 等 ， 而 字典 的 值 则 是 一 个 个 redisCommand 结 构 ， 
每 个 redisCommand 结 构 记 录 了 一 个 Redis 命 令 的 实现 信息 ， 表 14-1 记 录 
了 这 个 结构 的 各 个 主要 属性 的 类 型 和 作用 。 


表 14-1 redisCommand 结 构 的 主要 属性 


了 | 他 
name char * 丛 今 的 名 学 ， 比 如 "set" 
proc redisCommandProc + | 函数 指名， 指向 偷 今 的 实现 函数 ， 比 如 setCommand。 
redisCommandproc 类 型 的 定义 为 typedef void redisCo 


ImandProc (redisClient *c); 


arity int 偷 今 参数 的 个 数 ， 用 于 检查 偷 令 请 求 的 格式 是 否 正确 。 如 
果 这 个 值 为 负数 -N， 那 么 表示 参数 的 数量 大 于 等 于 NW。 注意 
俞 今 的 名 字 本 身 也 是 一 个 参数 ， se msg "hello 
world" 从 今 的 参数 是 "sET"、"m g", "hello world", 
而 不 仅仅 是 "msg" 和 "hello world" 


sflags char * 字符 串 形式 的 标识 但， 这 个 值 记录 了 售 令 的 属性 ， 比 如 这 个 
命令 是 写 从 令 还 是 读 合 令 ， 这 个 售 令 是 否 多 许 在 载 人 数据 时 使 
用 ， 这 个 命 仿 是 否 允 许 在 Lua 脚本 中 使 用 竺 等 


flags int 对 sf1ags 标识 进行 分 析 得 出 的 二 进 制 标识 ， 由 程序 日 动 生 
成 。 服 务 器 对 命令 标识 进行 检查 时 使 用 的 都 是 f1ags 属性 而 不 
dnp, BNE 

、* 等 操作 来 宛 成 


ol 服务 和 了 多 因 过 个 
milliseconds 服务 名 执行 这 个 信 令 所 耗费 的 总 时 长 


表 14-2 列 出 了 sflags 属 性 可 以 使 用 的 标识 值 ， 以 及 这 些 标识 的 意义 。 
表 14-2 sflags 属 性 的 标识 











带 有 这 个 标识 的 命令 
这 是 一 个 号 人 仿 令 ， 可 能 会 修改 数据 库 ”| SET、RPUSH、DEL 等 和 





个 只 污 


这 是 一 个 只 污 售 邻 ， 不 会 修改 数据 库 GBT、STRLEN、EXISTS 等 等 


这 个 从 令 可 能 会 鼎 用 大 量 内 在 Ee 
需要 先 检查 服务 名 的 内 存 使 用 情况 ， 
内 存 紧缺 的 话 就 禁止 执行 这 个 命令 


SET, APPEND, RPUSH, LPUSH, $ADD, 
人 | GpsronE 等 和 


这 是 一 个 管理 命令 S4VE、BGS4VE、SHUTDOWN 等 全 


全 


这 是 一 个 发 布 与 订阅 功能 方面 的 命令 PUBLISH、 SUBSCRIBE、PUBSUB 等 等 
这 个 从 令 不 可 以 在 Lua 脚本 中 使 用 BRPOP、 BLPOP、BRPOPLPUSH、SPOP 等 等 


这 是 一 个 随机 命令 ， 对 于 相同 的 数据 集 和 | SPOP、SRANDMEMBER、SSCAN， 
相同 的 参数 ， 从 今 返回 的 结果 可 能 不 同 | R4NDOMKZ7 等 等 


当 在 Lua 网 本 中 使 用 这 个 给 令 时 ， 对 这 
个 全 令 的 输出 结果 进行 一 次 排序 ， 使 得 全 
信 的 络 果 有 序 


SINTER SUNION, SDIFF SMEMBERS, 
KEYS 等 等 


这 个 丛 令 可 以 在 服务 品 载 人 数据 的 过 程 中 


合用 INFO、SHUTDOWN、PUBLISH 等 入 


这 是 一 个 多 评 从 服务 各 在 市 有 过 期 数据 时 


SL4VEOR、PING、INPO 等 和 
合用 的 侩 4 


这 个 命令 在 监视 器 ( monitor ) 模 式 下 不 会 EXEC 


日 动 被 传播 ( propagate ) 





图 14-4 展 示 了 命令 表 的 样子 ， 并 且 以 SET 命令 和 GET 命 令 作为 例 
子 ， 展 示 了 redisCommand 结 构 : 


.SET 命令 的 名 字 为 "set"， 实 现 函 数 为 setCommand; 命令 的 参数 个 
数 为 -3， 表 示 命 令 接受 三 个 或 以 上 数量 的 参数 ， 命令 的 标 只 为 "wm"， 表 
示 SET 责令 是 一 小 本 入 合 令 ， 并 且 在 执行 这 个 下 命令 之 前 ， 服 务 器 应 该 对 
占用 内 存 状 况 进 行 检查 ， 因 为 这 个 命令 可 能 会 占用 大 量 内 存 。 


GET 命令 的 名 字 为 "get ， 实现 函数 为 8etCommand 函 数 ; 命令 的 参 
数 个 数 为 2， 表 示 命 令 只 接受 两 个 参数 ;命令 的 标识 为 "r""， 表 示 这 是 一 


个 只 读 命 令 。 


继续 之 前 SET 命令 的 例子 ， 当 程序 以 图 14-3 中 的 argv[0] 作 为 输入 ， 
在 命令 表 中 进行 查找 时 ， 命 令 表 将 返回 "set" 键 所 对 应 的 redisCommand 结 
构 ， 客 户 端 状态 的 cmd 指 针 会 指向 这 个 redisCommand 结 构 ， 如 图 14-5 所 
示 。 














redisCommand 


name 
"setn 


vold setCommand (redisClient *c); 


redisCommand 
"publish" 


Volid getCommand (redisClient *c); 


: 





图 14-4 ”命令 表 









redlsClient 


指向 "set" 键 对 应 的 
redisCommand 结 构 


redisCommand 


niame 
nsetn 


arity 
-3 


sflags 


i 





void setCommand (redisClient *c); 










"rpush" 
"publish" 


wm" 










图 14-5 ”设置 客户 端 状态 的 cmd 指 针 





命令 名 字 的 大 小 写 不 影响 命令 表 的 查找 结果 





因为 命令 表 使 用 的 是 大 小 写 无 关 的 查找 算法 ， 无 论 输入 的 命令 

1 是 全 小 写 或 者 混合 大 小 写 ， 只 要 命令 的 名 字 是 正确 的 ， 整 

能 找到 相应 的 redisCommand 结 构 。 比如 说 无 论 用 户 输入 的 命令 名 
字 是 "SET"、"set"、"SeT" 又 或 者 "sSEt"， 命 令 表 返回 的 都 是 同一 个 











redisCommand 结 构 。 这 也 是 Redis 客 户 端 可 以 发 送 不 同 大 小 写 的 命 
令 ， 并 且 获 得 相同 执行 结果 的 原因 : 








# 

以 下 四 个 命令 的 执行 效果 完全 一 样 
redis> SET msg "hello world" 
OK 














redis> set msg "hello world" 


OK 
redis> SeT msg "hello world" 
OK 
redis> SEt msg "hello world" 
OK 





14.1.4 ”命令 执行 器 (2) : 执行 预备 操作 


到 目前 为 止 ， 服 务 器 已 经 将 执行 命令 所 需 的 命令 实现 函数 〈 保 存在 
客户 端 状 态 的 cmd 属 性 ) 、 参 数 〈 保 存在 客户 疹 状 态 的 argv 属 性 ) 、 参 
数 个 数 〈 保 存在 客户 端 状态 的 argc 属 性 ) 都 收集 齐 了 ， 但 是 在 真正 执行 
命令 之 前 ， 程 序 还 需要 进行 一 些 预 备 操作 ， 从 而 确保 命令 可 以 正确 、 顺 
利 地 被 执行 ， 这 些 操作 包括 : 


-检查 客户 并 状态 的 cmd 指 针 是 否 指 同 NULL， 如 果 是 的 话 ， 那 么 说 
明 用 户 输入 的 命令 名 字 找 不 到 相应 的 命令 实现 ， 服 务 句 不 再 执行 后 续 步 
又 ， 并 回 客 户 站 返回 一 个 错误 。 


.根据 客户 端 cmd 属 性 指向 的 redisCommand 结 构 的 arity 属 性 ， 检 查 命 
令 请 求 所 给 定 的 参数 个 数 是 人 否 正 确 ， 当 参数 个 数 不 正 确 时 ， 不 再 执行 后 
续 步 骤 ， 直 接 癌 客户 端 返回 一 个 错误 。 比 如 说 ， 如 果 redisCommand 结 构 
的 arity 属 性 的 值 为 3， 那么 用 户 输入 的 命令 参数 个 数 必须 大 于 等 于 3 个 才 
ji 




















检查 客户 闪 是 否 已 经 通过 了 身份 验证 ， 未 通过 号 份 验证 的 客户 站 
只 能 执行 AUTH 命 令 ， 如 果 未 通过 喘 份 验证 的 客户 端 试 图 执行 除 AUTH 
命令 之 外 的 其 他 命令 ， 那 么 服务 顺 将 问 客 户 器 返回 一 个 错误 。 


如果 服务 器 打开 了 maxmemory 功 能 ， 那 么 在 执行 命令 之 前 ， 先 检 
得 服务 器 的 内 存 占 用 情况 ， 并 在 有 需要 时 进行 内 存 回 收 ， 从 而 使 得 接 下 
来 的 命令 可 以 顺利 执行 。 如 果 内 存 回 收 失 败 ， 那 么 不 再 执行 后 续 步 又 ， 
回 客 户 端 返 回 一 个 错误 。 


:如 果 服 务 器 上 一 次 执行 BGSAVE 命 令 时 出 错 ， 并 且 服 务 器 打开 了 
stop-writes-on-bgsave-error 功 能 ， 而 且 服 务 器 即将 要 执行 的 命令 是 一 个 写 
命令 ， 那 么 服务 器 将 拒绝 执行 这 个 命令 ， 并 问 客户 端 返回 一 个 错误 。 


.如 果 客 户 端 当 前 正在 用 SUBSCRIBE 命 令 订 阅 频 道 ， 或 者 正在 用 
PSUBSCRIBE 命 令 订 阅 模式 ， 那 么 服务 器 只 会 执行 客户 端 发 来 的 
SUBSCRIBE、PSUBSCRIBE、UNSUBSCRIBE、PUNSUBSCRIBE 四 个 
命令 ， 其 他 命令 都 会 被 服务 器 拒绝 。 


.如果 服务 器 正在 进行 数据 载 入 ， 那 么 客户 端 发 送 的 命令 必须 带 有 1 
标识 〈 比 如 INFO、SHUTDOWN、PUBLISH 等 等 ) 才 会 被 服务 器 执 
行 ， 其 他 命令 都 会 被 服务 器 拒绝 。 


.如 果 服 务 器 因为 执行 Lua 脚 本 而 超时 并 进入 阻塞 状态 ， 那 么 服务 器 
只 会 执行 客户 端 发 来 的 SHUTDOWN nosave 命 令 和 SCRIPT KILL 命 令 ， 
其 他 命令 都 会 被 服务 器 拒绝 。 

.如 果 客 户 端正 在 执行 事务 ， 那 么 服务 器 只 会 执行 客户 端 发 来 的 
EXEC、DISCARD、MULTI、WATCH 四 个 命令 ， 其 他 命令 都 会 被 放 进 
事务 队列 中 。 


如果 服 务 器 打开 了 监视 器 功能 ， 那 么 服务 占 会 将 要 执行 的 命令 和 
参数 等 信息 发 送 给 监视 需 。 当 完成 了 以 上 预备 操作 之 后 ， 服 务 器 就 可 以 
开始 真正 执行 命令 了 。 


作 \ A 
CC "| 


Ne 法 注 


以 上 只 列 出 了 服务 需 在 单机 模式 下 执行 命令 时 的 检查 操作 ， 当 服务 
需 在 复制 或 者 集群 模式 下 执行 命令 时 ， 了 预备 操作 还 会 更 多 一 些 。 


14.1.5 ”命令 执行 器 〈3) : 调用 命令 的 实现 函数 


在 前 面 的 操作 中 ， 服 务 需 已 经 将 要 执行 命令 的 实现 保存 到 了 客户 站 
状态 的 cmd 属 性 里 面 ， 并 将 命令 的 参数 和 参数 个 数 分 别 保存 到 了 客户 端 
状态 的 argv 属 性 和 argv 属 性 里 面 ， 当 服务 器 决定 要 执行 命令 时 ， 它 只 要 
执行 以 下 语句 就 可 以 了 : 

















et Ctert 
是 指向 客户 端 状态 的 指针 
client->cmd->proc(client); 





因为 执行 命令 所 需 的 实际 参数 都 已 经 保存 到 客户 端 状态 的 argv 属 性 
0 0 
数 姑 可。 


继续 以 之 前 的 SET 命 令 为 例子 ， 图 14-6 展 示 了 客户 端 包含 了 命令 实 
现 、 参 数 和 参数 个 数 的 样子 。 


对 于 这 个 例子 来 说 ， 执 行 语句 : 





client->cmd->proc(client); 





等 于 执行 语句 : 





setCcommand(client); 





name 
neat 






void setCommand (redisClient xc) ， 


sflags 
Mm" 












StringObject Strlngobject 
"SET" "VALUE" 


图 14-6 ”客户 端 状 态 


被 调用 的 命令 实现 函数 会 执行 指定 的 操作 ， 并 产生 相应 的 命令 回 
复 ， 这 些 回复 会 被 保存 在 客户 端 状 态 的 输出 缓冲 区 里 面 (buf 属 性 和 
reply 属 性 ) ， 之 后 实现 函数 还 会 为 客户 端的 套 接 字 关联 命令 回复 处 理 
器 ， 这 个 处 理 器 负责 将 命令 回复 返回 给 客户 端 。 

对 于 前 面 SET 命 令 的 例子 来 说， 函数 调用 setCommand (dlient) 将 


产生 一 个 "+OK\rn" 回 复 ， 这 个 回复 会 被 保存 到 客户 并 状态 的 buf 属 性 里 
面 ， 如 图 14-7 所 示 。 


redisClient 







EIEN 


图 14-7 保存 了 命令 回复 的 客户 端 状态 
14.1.6 命令 执行 器 (4) : 执行 后 续 工 作 
在 执行 完 实 现 函 数 之 后 ， 服 务 器 还 需要 执行 一 些 后 续 工 作 : 


-如果 服务 器 开 尼 了 慢 碍 询 日 志 功 能 ， 那 么 慢 碍 询 日 志 模 块 会 检查 
是 否 需要 为 刚刚 执行 完 的 命令 请 求 添 加 一 条 新 的 慢 碍 询 日 志 。 


.根据 刚刚 执行 命令 所 耗费 的 时 长 ， 更 新 被 执行 命令 的 
redisCommand 结 构 的 milliseconds 属 性 ， 并 将 命令 的 redisCommand 结 构 


的 calls 计 数 器 的 值 增 一 。 


如果 服务 器 开局 了 AOF 持 久 化 功能 ， 那 么 AOF 持 久 化 模块 会 将 刚 
刚 执 行 的 命令 请 求 写 入 到 AOF 绥 冲 区 里 面 。 


-如果 有 其 他 从 服务 器 正在 复制 当前 这 个 服务 器 ， 那 么 服务 器 会 将 
刚 罩 执行 的 命令 传播 给 所 有 从 服务 器 。 

















当 以 上 操作 都 执行 完了 之 后 ， 服 务 器 对 于 当前 命令 的 执行 到 此 融 告 
一 段落 了 ， 之 后 服务 器 就 可 以 继续 从 文件 事件 处 理 器 中 取出 并 处 理 下 一 


个 命令 请 求 了 。 
14.1.7 ”将 命令 回复 发 送 给 客户 端 


前 面 说 过 ， 命 令 实现 函数 会 将 命令 回复 保存 到 客 己 端的 输出 缓冲 区 
里 面 ， 并 为 客户 端的 套 接 字 关 联 命 令 回 复 处 理 嚣 ， 当 客户 端 僚 接 字 变 为 
可 写 状 态 时 ， 服 务 需 就 会 执行 命令 回复 处 理 器 ， 将 保存 在 客户 端 和 输出 组 
冲 区 中 的 命令 回复 发 送 给 客户 亲 。 

当 命 令 回 复发 送 完毕 之 后 ， 回 复 处 理 器 会 清空 客户 端 状态 的 输出 组 
冲 区 ， 为 处 理 下 一 个 命令 请 求 做 好 准备 。 

以 图 14-7 所 示 的 客户 端 状态 为 例子 ， 当 客户 端的 套 接 字 变 为 可 写 状 
态 时 ， 命 令 回 复 处 理 需 会 将 协议 格式 的 命令 回复 "+OKNn" 发 送 给 客户 


端 。 
14.1.8 ”客户 端 接 收 并 打印 命令 回复 
当 客 户 端 接收 到 协议 格式 的 命令 回复 之 后 ， 它 会 将 这 些 回复 转换 成 


人 类 可 读 的 格式 ， 并 打印 给 用 户 观 看 《假设 我 们 使 用 的 是 Redis 目 带 的 
redis-clji 客 户 端 ) ， 如 图 14-8 所 示 。 




















回复 处 理 器 将 协议 格式 的 将 回复 格式 化 成 人 类 可 读 格 式 
命令 回复 返回 给 客 尸 端 然后 打印 显示 


服务 器 一 一 一 一 一 一 一 一 > 客户 端 





图 14-8 ”客户 并 接收 并 打印 命令 回复 的 过 程 


继续 以 之 前 的 SET 命 令 为 例子 ， 当 客户 并 接 到 服务 嚣 发 来 
的 +OKn" 协 议 回复 时 ， 它 会 将 这 个 回复 转换 成 "OK\n"， 然 后 打印 给 
用 户 看 : 





redis> SET KEY VALUE 
OK 


以 上 就 是 Redis 客 户 痢 和 服务 器 执行 命令 请 求 的 整个 过 程 了 。 


14.2 ， serverCron 函数 

Redis 服 务 器 中 的 serverCron 函 数 默认 每 隔 100 蓝 秒 执行 一 次 ， 这 个 
函数 负责 管理 服务 喜 的 资源 ， 并 保持 服务 堪 目 身 的 恨 好 运转 。 

本 节 接 下 来 的 内 容 将 对 serverCron 函 数 执行 的 操作 进行 完整 介绍 ， 
并 介绍 redisServer 结 构 ( 服 务 器 状态 ) 中 和 serverCron 函 数 有 关 的 属性 。 
14.2.1 更 新 服务 器 时 间 绥 存 


Redis 服 务 器 中 有 不 少 功能 需要 获取 系统 的 当前 时 间 ， 而 每 次 获取 
系统 的 当前 时 间 都 需要 执行 一 次 系统 调用 ， 为 了 减少 系统 调用 的 执行 次 
服务 器 状态 中 的 unixtime 属 性 和 mstime 属 性 被 用 作 当 前 时 间 的 组 

子 : 











struct redisServer { 
Pa 


// 
保存 了 秒 级 精度 的 系统 当前 UNIX 
时 间 截 

time_t unixtime; 

// 
保存 了 毫秒 级 精度 的 系统 当前 UNIX 
时 间 截 

long long mstime; 

WE 


}; 





为 serverCron 函 数 默 认 会 以 每 100 毫 秒 一 次 的 频率 更 新 unixtime 属 
性 和 mstime 属 性 ， 所 以 这 两 个 属性 记录 的 时 间 的 精确 上 度 并 不 高 : 


:服务 器 只 会 在 打印 日 志 、 更 新 服务 器 的 LRU 时 钟 、 决 定 是 否 执行 
持久 化 任务 、 计 算 服 务 器 上 线 时 间 (uptime) 这 类 对 时 间 精 确 度 要 求 不 
高 的 功能 

:对 于 为 键 设置 过 期 时 则 、 添 加 慢 查 询 日 志 这 种 需要 高 精确 度 时 间 
的 功能 来 说 ， 服 务 器 还 是 会 再 次 执行 系统 调用 ， 从 而 获得 最 准确 的 系统 
当前 时 间 。 

14.2.2 ”更 新 LRU 时 钟 


服务 器 状态 中 的 lruclock 属 性 保存 了 服务 器 的 LRU 时 钟 ， 这 个 属性 





下 mstime 属 性 一 样 ， 都 是 服务 器 时 间 绥 存 的 
一 -不 , 





struct redisServer { 
RH 


// 
默认 每 10 
少 更 新 一 次 的 时 钟 缓存 ， 
于 计算 键 的 空转 (idle 
) 时 长 。 
uns ne lruclock:22; 
// 


}; 


























每 个 Redis 对 象 都 会 有 一 个 lr 属性， 这 个 lru 属 性 保存 了 对 象 最 后 一 
次 被 命令 访问 的 时 间 : 





typedef struct redisobject { 
unsigned lru:22; 
A es 


} robj; 





当 服 务 器 要 计算 一 个 数据 库 键 的 空转 时 间 (也 即 是 数据 库 键 对 应 的 
值 对 象 的 空转 时 间 ) ， 程 序 会 用 服务 器 的 lruclock 属 性 记录 的 时 间 减 去 
对 象 的 lru 属 性 记录 的 时 间 ， 得 出 的 计算 结果 就 是 这 个 对 象 的 空转 时 间 : 





redis> SET msg "hello world" 
OK 


# 

等 待 一 小 段 时间 

redis> OBJECT IDLETIME msg 
(integer )20 

redis> OBJECT IDLETIME msg 
(integer )180 

# 


redi s> GET msg 
"hello world" 


人 空转 时 长 为 9 
ECT TDLETIME msg 
人 te 





serverCron 函 数 默 认 会 以 每 10 秒 一 次 的 频率 更 新 lruclock 属 性 的 值 ， 
因为 这 个 时 钟 不 是 实时 的 ， 所 以 根据 这 个 属性 计算 出 来 的 LRU 时 间 实 际 
上 只 是 一 个 模糊 的 估算 值 。 


lruclock 时 钟 的 当前 值 可 以 通过 INFO server 命 令 的 lru_clock 域 查看 : 





redis> INFO server 
# Server 


lru. clock:55923 





14.2.3 ”更 新 服务 器 每 秒 执行 命令 次 数 


serverCron 函 数 中 的 trackOperationsPerSecond 函 数 会 以 每 100 毫 秒 
次 的 频率 执行 ， 这 个 函数 的 功能 是 以 抽样 计算 的 方式 ， 估 算 并 记录 服务 
器 在 最 近 一 秒 钟 处 理 的 命令 请 求 数量 ， 这 个 值 可 以 通过 INFO status 命 令 
的 instantaneous_ops_per_sec 域 查看 : 











redis> INFO stats 
# Stats 


instantaneous_ops_per_sec:6 





上 面 的 命令 结果 显示 ， 在 最 近 的 一 秒 钟 内 ， 服 务 占 处 理 了 大 概 六 个 


trackOperationsPerSecond 函 数 和 服务 器 状态 中 四 个 ops_sec_ 开 头 的 
属性 有 关 : 


可 





struct redisServer { 
RN 


a 
上 一 次 进行 抽样 的 时 间 
ong long ops_sec_last_sample_time; 


// 
上 一 次 抽样 时 ， 服 务 器 已 执行 命令 的 数量 
long long ops_sec_last_ sample_ops; 
// REDIS_OPS_SEC_SAMPLES 
大 小 (默认 值 为 16 
) 的 环形 数组 ， 
11 
数组 中 的 每 个 项 都 记录 了 一 次 抽样 结果 。 
long long ops_sec_samples[REDIS OPS_SEC_SAMPLES]; 


// ops_sec_samples 
数组 的 索引 值 ， 


i 
每 次 抽样 后 将 值 自 增 一 ， 





在 值 等 于 16 

时 重 置 为 9 

Pad 

让 ops_sec_samples 
数组 构成 一 个 环形 数组 。 
int ops_sec_idx; 


}; 








trackOperationsPerSecond 函 数 每 次 运行 ， 都 会 根据 
ops_sec_last_sample_time 记 录 的 上 一 次 抽样 时 间 和 服务 器 的 当前 时 间 ， 
以 及 ops_sec_last_sample_ops 记 录 的 上 一 次 抽样 的 已 执行 命令 数量 和 服 


务 器 当前 的 已 执行 命令 数量 ， 计 算出 两 次 trackOperationsPerSecond 调 用 
之 间 ， 服 务 器 平均 每 一 蝶 秒 处 理 了 多 少 个 命令 请 求 ， 然 后 将 这 个 平均 值 
乘 以 1000， 这 就 得 到 了 服务 器 在 一 秒 钟 内 能 处 理 多 少 个 命令 请 求 的 估计 
fs a 值 会 被 作为 一 个 新 的 数组 项 被 放 进 ops_sec_samples 环 形 数 
组 里 面 。 


当 客 户 问 执行 INFO 命 令 时 ， 服 务 器 束 会 调用 
getOperationsPerSecond 函 数 ， 根 据 ops_sec_samples 环 形 数组 中 的 抽样 结 
果 ， 计 算出 instantaneous_ops_per_sec 属 性 的 值 ， 以 下 是 
getOperationsPerSecond 函 数 的 实现 代码 : 








long long getoperationsPerSecond(void){ 
1 河池 
long long sum = 0; 
2 

计算 所 有 取样 值 的 总 和 
for (j = 0; j < REDIS_OPS_SEC_SAMPLES; j++) 


Sum += server.ops_sec_samples[j]; 


7 
计算 取样 的 平均 值 

return sum / REDIS_0PS_SEC_SAMPLES ; 
} 





根据 getOperationsPerSecond 函 数 的 定义 可 以 看 出 ， 
instantaneous_ops_per_sec 属 性 的 值 是 通过 计算 最 近 
REDIS_OPS_SEC_SAMPLES 次 取样 的 平均 值 来 计算 得 出 的 ， 它 只 是 一 
个 估算 值 。 


14.2.4 更 新 服务 器 内 存 峰 值 记 录 
服务 器 状态 中 的 stat_peak_memory 属 性 记录 了 服务 器 的 内 存 峰 值 大 


小 : 











struct redisServer { 
2 











学 天 
已 使 用 内 存 峰 值 
Size_t stat_ peak memory; 
“Ee 


}; 














每 次 serverCron 函 数 执行 时 ， 程 序 都 会 查看 服务 器 当前 使 用 的 内 存 
数量 ， 并 与 stat_peak_memory 保 存 的 数值 进行 比较 ， 如 果 当 前 使 用 的 内 
存 数 量 比 stat_peak_memory 属 性 记录 的 值 要 大 ， 那 么 程序 就 将 当前 使 用 
的 内 存 数量 记录 到 stat_peak_memory 属 性 里 面 。 


INFO memory 命 令 的 used_memory_peak 和 
used_memory_peak_human 两 个 域 分 别 以 两 种 格式 记录 了 服务 器 的 内 存 
峰值 : 





redis> INFO memory 
# Memory 


used_ memory_peak:501824 
used_ memory_peak_human:490.06K 





14.2.5 ”处理 SIGTERM 信 号 


在 启动 服务 器 时 ，Redis 会 为 服务 器 进程 的 SIGTERM 信 号 关联 处 理 
器 SigtermHandler 函 数 ， 这 个 信号 处 理 器 负 贡 在 服务 器 接 到 SIGTERM 信 
号 时 ， 打 开 服 务 器 状态 的 shutdown_asap 标 识 : 








// SIGTERM 

信号 的 处 理 器 

static void sigtermHandler(int Sig) { 
a 


打印 日 志 
redisLogFromHandler (REDIS_ WARNING, "Received SIGTERM, Scheduling shutdown..."); 
了 

打开 关闭 标识 
Server .Shutdown_asap = 1; 


} 





每 次 serverCron 函 数 运行 时 ， 程 序 都 会 对 服务 器 状态 的 
shutdown_asap 属 性 进行 检查 ， 并 根据 属性 的 值 决 定 是 否 关 闭 服务 器 : 





struct redisServer { 
Hs 
// 
关闭 服务 器 的 标识 : 
// 
值 为 1 
时 ， 关 闭 服务 器 ， 
J 
值 为 0 
时 ， 不 做 动作 。 
int shutdown_asap 


}; 














以 下 代码 展示 了 服务 器 在 接 到 SIGTERM 信 号 之 后 ， 关 闭 服 务 器 并 
打印 相关 日 志 的 过 程 : 





[6794 | signal handler] (1384435690) Received SIGTERM, scheduling shutdown... 
[6794] 14 Nov 21:28:10.108 # User requested shutdown... 

[6794] 14 Nov 21:28:10.108 * Saving the final RDB snapshot before exiting. 
[6794] 14 Nov 21:28:10.161 * DB saved on disk 

[6794] 14 Nov 21:28:10.161 # Redisis now ready to exit, bye bye... 


从 日 志 里 面 可 以 看 到 ， 服 务 器 在 关闭 自身 之 前 会 进行 RDB 持 久 化 操 
作 ， 这 也 是 服务 器 拦截 SIGTERM 信 和 号 的 原因 ， 如 果 服 务 器 一 接 到 
SIGTERM 信 和 号 就 立即 关闭 ， 那 么 它 就 没 办 法 执行 持久 化 操作 了 。 


14.2.6 ”管理 客户 端 资 源 


serverCron 函 数 每 次 执行 都 会 调用 clientsCron 函 数 ，clientsCron 函数 
会 对 一 定数 量 的 客户 端 进 行 以 下 两 个 检查 : 


如果 客户 端 与 服务 占 之 间 的 连接 已 经 超时 很 长 一 段 时 间 里 客户 
端 和 服务 器 都 没有 互动 )， 那 么 程序 释放 这 个 客户 端 


:如 果 客 户 端 在 上 一 次 执行 命令 请 求 之 后 ， 输 入 缓冲 区 的 大 小 超过 
了 一 定 的 长 度 ， 那 么 程序 会 释放 客户 端 当 前 的 输入 缓冲 区 ， 并 重新 创建 
I 从 而 防止 客户 端的 输入 绥 冲 区 耗费 了 过 多 

子 


14.2.7 管理 数据 库 资 源 

serverCron 国 数 每 次 执行 都 会 调用 databasesCron 函 数 ， 这 个 函数 会 
对 服务 器 中 的 一 部 分 数据 库 进 行 检查 ， 删除 其 中 的 过 期 键 ， 并 在 有 需要 
时 ， 对 字典 进行 收缩 操作 ， 第 9 章 经 对 这 些 操作 进行 了 详细 的 说 明 。 
14.2.8 执行 被 延迟 的 BGREWRITEAOF 


在 服务 器 执行 BGSAVE 命 令 的 期 间 ， 如 果 客 户 端 癌 服务 喜 发 来 
BGREWRITEAOF 命 令 ， 那 么 服务 右 会 将 BGREWRITEAOF 命 令 的 执行 
时 间 延 迟到 BGSAVE 命 令 执 行 完 毕 之 后 。 


服务 器 的 aof _- 和 _scheduled 标 识 记 录 了 服务 器 是 否 延 迟 了 
BGREWRITEAOF 命 仿 : 














struct redisServer { 
A Re 


人 和 1 
那么 人 在 BGREWRITEAOF 
令 被 延 


fi rewrite_scheduled; 
0 
}; 





每 次 serverCron 函 数 执 行 时 ， 函 数 都 会 检查 BGSAVE 命 令 或 者 
BGREWRITEAOF 命 令 是 否 正 在 执行 ， 如 果 这 两 个 命令 都 没 在 执行 ， 并 
且 aof rewrite_scheduled 属 性 的 值 为 1， 那 么 服务 器 束 会 执行 之 前 被 推 延 
的 BGREWRITEAOF 命 令 。 


14.2.9 ”检查 持久 化 操作 的 运行 状态 
服务 器 状态 使 用 rdb_child_pid 属 性 和 aof_child_pid 属 性 记录 执行 


BGSAVE 命 令 和 BGREWRITEAOE 命 令 的 子 进程 的 ID， 这 两 个 属性 也 可 
以 用 于 检查 BGSAVE 命 令 或 者 BGREWRITEAOF 命 令 是 否 正 在 执行 : 





struct redisServer { 
BR 


从 
记录 执行 BGSAVE 
命令 的 子 进 程 的 ID 
NE 
如 果 服 务 器 没有 在 执行 BGSAVE 


je 
那么 这 个 属性 的 值 为- 工 


pid_t rdb_child_pid; /* PID of RDB saving child */ 
a 

记录 执行 BGREWRITEAOF 

命令 的 子 进程 的 ID 


MA] 
如 果 服 务 器 没有 在 执行 BGREWRITEAOF 


PR 

那么 这 个 属性 的 值 为 -1 
pid_t aof_child_pid; /* PID if rewriting process 本 天 
人 

}; 





每 次 serverCron 函 数 执行 时 ， 程 序 都 会 检查 rdb_child_pid 和 
aof_child_pid 两 个 属性 的 值 ， 只 要 其 中 一 个 属性 的 值 不 为 -1， 程 序 就 会 
执行 一 次 wait3 函 数 ， 检 查 子 进程 是 否 有 信号 发 来 服务 器 进程 : 


.如果 有 信号 到 达 ， 那 么 表示 新 的 RDB 文 件 已 经 生成 完毕 〈 对 于 
BGSAVE 命 令 来 说 ) ， 或 者 AOF 文 件 已 经 重 写 完 毕 〈 对 于 
BGREWRITEAOF 命 令 来 说 ) ， 服 务 器 需要 进行 相应 命令 的 后 续 操 作 ， 
比如 用 新 的 RDB 文 件 蔡 换 现 有 的 RDB 文 件 ， 或 者 用 重 写 后 的 AOF 文 件 蔡 
换 现 有 的 AOF 文 件 。 


四 :如果 没有 信和 号 到 达 ， 那 么 表示 持久 化 操作 未 完成 ， 程 序 不 做 动 


另 一 方面 ， 如 果 rdb_child_pid 和 aof_child_pid 两 个 属性 的 值 都 为 -1， 

















en 
二 个 信人 全 : 

1) 查看 是 否 有 BGREWRITEAOF 被 延迟 了 ， 如 果 有 的 话 ， 那 么 开 
A 的 BGREWRITEAOF 操 作 (这 就 是 上 一 个 小 节 我 们 说 到 的 检 
丛 ) 。 








2) 检查 服务 器 的 自动 保存 条 件 是 否 已 经 被 满足 ， 如 果 条 件 满 足 ， 
并 且 服 务 器 没有 在 执行 其 他 持久 化 操作 ， 那 么 服务 器 开始 一 次 新 的 
BGSAVE 操 作 《 因 为 条 件 1 可 能 会 引发 一 次 BGREWRITEAOF， 上 所 以 在 
这 个 检查 中 ， 程 序 会 再 次 确认 服务 器 是 否 已 经 在 执行 持久 化 操作 了 ) 。 








3) 检查 服务 器 设置 的 AOF 重 写 条 件 是 否 满 足 ， 如 果 条 件 满 足 ， 并 
且 服 务 器 没有 在 执行 其 他 持久 化 操作 ， 那 么 服务 器 将 开始 一 次 新 的 
BGREWRITEAOF 操 作 (因为 条 件 1 和 条 件 2 都 可 能 会 引起 新 的 持久 化 操 
0 
时 让 





图 14-9 以 流程 图 的 方式 展示 了 这 个 检查 过 程 。 


服务 器 没有 在 执行 任何 持久 化 操作 


有 BGREWRITEAOF 被 延迟 ? 
否 


目 动 保存 的 条 件 已 经 满足 ? 


是 
执行 BGSAVE 


执行 BGREWRITEAOF 不 做 动作 





三 | 


夺 





AOF 重 写 的 条 件 已 经 满足 ? 


首开 





图 14-9 判断 是 否 需要 执行 持久 化 操作 
14.2.10 ”将 AOF 绥 冲 区 中 的 内 容 写 入 AOF 文 件 
如 果 服 务 器 开启 了 AOF 持 久 化 功能 ， 并 有 昌 AOF 绥 冲 区 里 面 还 有 待 写 
入 的 数据 ， 那 么 serverCron 函 数 会 调用 相应 的 程序 ， 将 AOF 绥 冲 区 中 的 
内 容 写 入 到 AOF 文 件 里 面 ， 第 11 章 对 此 有 详细 的 说 明 。 
14.2.11 关闭 异步 客户 端 


在 这 一 步 ， 服 务 器 会 关闭 那些 输出 缓冲 区 大 小 超出 限制 的 客户 端 ， 
人 


14.2.12 ”增加 cronloops 计 数 器 的 值 
服务 器 状态 的 cronloops 属 性 记录 了 serverCron 函 数 执行 的 次 数 : 





struct redisserver { 
区 


和 和 
本 -次 人 人 就 增 
四 二 


}; 


cronloops 属 性 目前 在 服务 器 中 的 唯一 作用 ， 就 是 在 复制 模块 中 实 
现 “ 每 执行 serverCron 函 数 N 次 就 执行 一 次 指定 代码 ”的 功能 ， 方 法 如 以 下 
盆 代 码 所 示 : 


if cronloops % N == 0: 


执行 指定 代码 ,.. 


14.3 ”初始 化 服务 器 


一 个 Redis 服 务 器 从 局 动 到 能 够 接受 客户 端的 命令 请 求 ， 需 要 经 过 
一 系列 的 初始 化 和 设置 过 程 ， 比 如 初始 化 服务 器 状态 ， 接 受用 户 指定 的 
服务 器 配置 ， 创 建 相应 的 数据 结构 和 网 络 连接 等 等 ， 本 节 接 下 来 的 内 容 
将 对 服务 器 的 整个 初始 化 过 程 进行 详细 的 介绍 。 


14.3.1 初始 化 服务 器 状态 结构 


初始 化 服务 器 的 第 一 步 束 是 创建 一 个 struct redisServer 类 型 的 实例 变 
量 server 作 为 服务 器 的 状态 ， 并 为 结构 中 的 各 个 属性 设置 默认 值 。 


初始 化 server 变 量 的 工作 由 redis.c/initServerConfig 函 数 完成 ， 以 下 是 
这 个 函数 最 开头 的 一 部 分 代码 : 





void initServerConfig(void){ 
设置 服务 器 的 运行 id 
getRandomHexChars(server.runid,REDIS RUN_ID_ SIZE); 
J 
为 运行 id 
加 上 结尾 字符 
server .runid[REDIS_RUN_ID_SIZE] = '\0'; 
设置 默认 配置 文件 路 径 
Server ,configfile = NULL; 
设置 默认 服务 器 频率 
Server .hz = REDIS DEFAULT_HZ; 
设置 服务 器 的 运行 架构 
rch_bits = (sizeof(long) == 8) ? 64 : 32; 
设置 默认 服务 器 端口 号 
server.port = REDIS_SERVERPORT; 
RE a 
} 





以 下 是 initServerConfig 函 数 完 成 的 主要 工作 : 
设置 服务 器 的 运行 ID。 

设置 服务 器 的 默认 运行 频率 。 

设置 服务 器 的 默认 配置 文件 路 径 。 
-设置 服务 器 的 运行 架构 。 
设置 服务 器 的 默认 端口 号 。 


.设置 服务 器 的 默认 RDB 持 久 化 条 件 和 AOF 持 久 化 条 件 。 

初始 化 服务 喜 的 LRU 时 钟 。 

.创建 命令 表 。 

initServerConfig 函 数 设置 的 服务 器 状态 属性 基本 都 是 一 些 整数 、 浮 
点 数 、 或 者 字符 串 属 性 ， 除 了 命令 表 之 外 ，initServerConfig 函 数 没 有 创 
建 服 务 器 状态 的 其 他 数据 结构 ， 数 据 库 、 慢 查询 日 志 、Lua 环 境 、 共 享 
对 象 这 些 数 据 结构 在 之 后 的 步 又 才 会 被 创建 出 来 。 


当 initServerConfig 函 数 执行 完毕 之 后 ， 服 务 器 就 可 以 进入 初始 化 的 
第 二 个 阶段 一 一 载 入 配置 选项 。 


14.3.2” 载 入 配置 选项 


在 局 动 服务 器 时 ， 用 户 可 以 通过 给 定 配置 参数 或 者 指定 配置 文件 来 
修改 服务 器 的 默认 配置 。 举 个 例子 ， 如 有 果 我 们 在 终端 中 输入 : 














$ redis-server --port 10086 


那么 我 们 就 通过 给 定 配置 参数 的 方式 ， 修 改 了 服务 咒 的 运行 问 口 
号 。 另 外 ， 如 果 我 们 在 终端 中 输入 : 


$ redis-server redis.conf 





并 且 redis.conf 文 件 中 包含 以 下 内 容 : 





# 
将 服务 器 的 数据 库 数量 设置 为 32 


databases 32 
# 


rdbcompression no 


那么 我 们 融通 过 指定 配置 文件 的 方式 修改 了 服务 硕 的 数据 库 数量 ， 
以 及 RDB 持 和 久 化 模块 的 压缩 功能 。 


服务 器 在 用 initServerConfig 函 数 初 始 化 完 server 变 量 之 后 ， 就 会 开始 
载 入 用 户 给 定 的 配置 参数 和 配置 文件 ， 并 根据 用 户 设 定 的 配置 ， 对 
server 变 量 相 关 属 性 的 值 进 行 修改 。 


例如 ， 在 初始 化 server 变 量 时 ， 程 序 会 为 诀 定 服务 器 端口 号 的 port 属 
性 设置 默认 值 : 





void initServerConfig(void){ 
rod, 


// 

默认 值 为 6379 
server .port = REDIS_SERVERPORT; 
J ns 

} 





不 过 ， 如 果 用 户 在 启动 服务 器 时 为 配置 选项 port 指 定 了 新 值 10086， 
那么 server.port 属 性 的 值 就 会 被 更 新 为 10086， 这 将 使 得 服务 器 的 端口 号 
从 默认 的 6379 变 为 用 户 指定 的 10086。 


例如 ， 在 初始 化 server 变 量 时 ， 程 序 会 为 决定 数据 库 数 量 的 dbnum 
属性 设置 默认 值 : 


void initServerConfig(void){ 


ver.dbnum = REDIS_DEFAULT_DBNUM; 


不 过 ， 如 果 用 户 在 启动 服务 器 时 为 选项 databases 设 置 了 值 32， 那 么 
server.dbnum 属 性 的 值 就 会 被 更 新 为 32， 这 将 使 得 服务 器 的 数据 库 数量 
从 默认 的 16 个 变 为 用 户 指定 的 32 个 。 


其 他 配置 选项 相关 的 服务 器 状态 属性 的 情况 与 上 面 列举 的 port 属 性 
和 dbnum 属 性 一 样 : 


如果 用 户 为 这 些 属性 的 相应 选项 指定 了 新 的 值 ， 那 么 服务 器 束 使 
用 用 户 指 定 的 值 来 更 新 相应 的 属性 。 


:如 果 用 户 没 有 为 属性 的 相应 选项 设置 新 的 值 ， 那 么 服务 器 就 沿用 
之 前 initServerConfig 函 数 为 属性 设置 的 默认 值 。 


服务 器 在 载 入 用 户 指定 的 配置 选项 ， 并 对 server 状 态 进 行 更 新 之 


后 ， 服 务 器 就 可 以 进入 初始 化 的 第 三 个 阶段 一 一 初始 化 服务 器 数据 结 


多 。 
14.3.3 ”初始 化 服务 器 数据 结构 


在 之 前 执行 initServerConfig 函 数 初 始 化 server 状 态 时 ， 程 序 只 创建 了 
不 过 除了 命令 表 之 外 ， 服 务 器 状态 还 包含 其 他 数 
据 结 义 ， 比 如 : 


'Server.clients 链 表 ， 这 个 链表 记录 了 所 有 与 服务 器 相连 的 客户 端的 
状态 结构 ， 链 表 的 每 个 节点 都 包含 了 一 个 redisClient 结 构 实例 。 


"server.db 数 组 ， 数 组 中 包含 了 服务 此 的 所 有 数据 库 。 


.用 于 保存 频道 订阅 信息 的 server.pubsub_channels 字 典 ， 以 及 用 于 保 
存 模式 订阅 信息 的 server.pubsub_patterns 链 表 。 


.用 于 执行 Lua 脚 本 的 Lua 环 境 server.lua。 
:用 于 保存 慢 查 询 日 志 的 server.slowlog 属 性 。 


当初 始 化 服务 右 进 行 到 这 一 步 ， 服 务 器 将 调用 initServer 函 数 ， 为 以 
ee 并 在 有 需要 时 ， 为 这 些 数 据 结构 设置 或 者 
天 联 初 始 。 


服务 器 到 现在 才 初 始 化 数据 结构 的 原因 在 于 ， 服 务 器 必须 先 载 入 用 
户 指定 的 配置 选项 ， 然 后 才能 正确 地 对 数据 结构 进行 初始 化 。 如 果 在 执 
行 initServerConfig 函 数 时 就 对 数据 结构 进行 初始 化 ， 那 么 一 旦 用 户 通过 
配置 选项 修改 了 和 数据 结构 有 关 的 服务 器 状态 属性 ， 服 务 占 就 要 重新 调 
整 和 修改 已 创建 的 数据 结构 。 为 了 避免 出 现 这 种 抵 烦 的 情况 ， 服 务 器 选 
择 了 将 server 状 态 的 初始 化 分 为 两 步 进行 ，initServerConfig 函 数 主 要 负责 
初始 化 一 般 属性 ， 而 initServer 函 数 主要 负责 初始 化 数据 结构 。 


除了 初始 化 数据 结构 之 外 ，initServer 还 进行 了 一 些 非 常 重要 的 设置 
操作 ， 其 中 包括 : 


.为 服务 器 设置 进程 信号 处 理 器 。 











.创建 共享 对 象 ， 这 些 对 象 包含 Redis 服 务 器 经 常用 到 的 一 些 值 ， 比 
如 包含 "OK" 回 复 的 字符 串 对 象 ， 包 含 "ERR" 回 复 的 字符 串 对 象 ， 包 含 整 
数 1 到 10000 的 字符 串 对 象 等 等 ， 服 务 器 通过 重用 这 些 共 享 对 象 来 避免 肥 
复 创 建 相同 的 对 象 。 


.打开 服务 器 的 监听 端口 ， 并 为 监听 套 接 字 关 联 连接 应 答 事件 处 理 
器 ， 等 待 服务 喜 正 式 运 行 时 接受 客户 端的 连接 。 

.为 serverCron 国 数 创 建 时 间 事 件 ， 等 待 服务 器 正式 运行 时 执行 
serverCron 函数 。 


如 朱 AOF 持 久 化 功能 已 经 打开 ， 那 么 打开 现 有 的 AOF 文 件 ， 如 采 
人 
准备 。 


人 











当 initServer 函 数 执行 完毕 之 后 ， 服 务 器 将 用 ASCII 字 符 在 日 志 中 打 
印 出 Redis 的 图 标 ， 以 及 Redis 的 版 本 号 信息 : 


We Redis 2.9.11 (bl39a2ac/0) 64 pit 


ij” “WW 
( , .~ | ) Running in stand alone mode 
| | | port: 6379 
| Sy a da | ‘wt ja 
a 


| “有 je | http://redis.io 


[5244] 21 Nov 22:43:49.084 # Server started, Redis version 2.9.11 
14.3.4 还原 数据 库 状 态 

在 完成 了 对 服务 器 状态 server 变 量 的 初始 化 之 后 ， 服 务 器 需要 载 入 
RDB 文 件 或 者 AOF 文 件 ， 并 根据 文件 记录 的 内 容 来 还 原 服务 器 的 数据 库 


状态 。 


根据 服务 器 是 否 情 用 了 AOF 持 久 化 功能 ， 服 务 器 载 入 数据 时 所 使 用 
的 目标 文件 会 有 所 不 同 : 


:如 果 服 务 器 启用 了 AOF 持 久 化 功能 ， 那 么 服务 器 使 用 AOF 文 件 来 
还 原 数 据 库 状态 。 


-相反 地 ， 如 果 服 务 器 没有 启用 AOF 持 久 化 功能 ， 那 么 服务 器 使 用 
RDB 文 件 来 还 原 数 据 库 状态 。 


当 服 务 占 完成 数据 库 状 态 还 原 工作 之 后 ， 服 务 占 将 在 日 志 中 打印 出 
载 入 文件 并 还 原 数 据 库 状态 所 耗费 的 时 长 : 





[5244] 21 Nov 22:43:49.084 * DB loaded from disk: 0.068 secon ds 





14.3.5 “执行 事件 循环 
在 初始 化 的 最 后 一 步 ， 服 务 器 将 打印 出 以 下 日 志 : 





[5244] 21 Nov 22:43:49.084 * The server is now ready to accept connections on port 6379 





并 开始 执行 服务 器 的 事件 循环 (loop) 。 


至 此 ， 服 务 器 的 初始 化 工作 圆满 完成 ， 服 务 需 现在 开始 可 以 接受 客 
户 端的 连接 请 求 ， 并 处 理 客户 端 发 来 的 命令 请 求 了 。 


14.4 重点 回顾 


-一 个 命令 请 求 从 发送 到 完成 主要 包括 以 下 步骤 : 1) 客户 并 将 命令 
请 求 发 送 给 服务 器 ; 2) 服务 顺 读 取 命 令 请 求 ， 并 分 析出 命令 参数 ，3) 
命令 执行 器 根据 参数 查找 命令 的 实现 函数 ， 然 后 执行 实现 函数 并 得 出 命 
令 回 复 ; 4) 服务 需 将 命令 回复 返回 给 客户 端 。 


.ServerCron 函 数 默认 每 隔 100 坚 秒 执行 一 次 ， 它 的 工作 主要 包括 更 
新 服务 器 状态 信息 ， 处 理 服务 器 接收 的 SIGTERM 信 和 号， 管理 客户 端 资 
源 和 数据 库 状 态 ， 检 查 并 执行 持久 化 操作 等 等 。 


:服务 器 从 局 动 到 能 够 处 理 客户 端的 命令 请 求 需要 执行 以 下 步 又: 
1) 初始 化 服务 器 状态 :2) 载 入 服务 器 配置 ，3) 初始 化 服务 器 数据 结 
构 ; 4) 还 原 数 据 库 状态 ; 5) 执行 事件 循环 。 





第 三 部 分 “多 机 数据 库 的 实现 
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第 15 章 ”复制 


在 Redis 中 ， 用 户 可 以 通过 执行 SLAVEOE 命 令 或 者 设置 slaveof 选 
项 ， 让 一 个 服务 器 去 复制 (replicate) 另 一 个 服务 器 ， 我 们 称呼 被 复制 
的 服务 器 为 主 服 务 器 (master) ， 而 对 主 服 务 器 进行 复制 的 服务 器 则 被 
称 为 从 服务 器 〈slave) ， 如 图 15-1 所 示 。 


复制 






图 15-1 主 服务 器 和 从 服务 器 


假设 现在 有 两 个 Redis 服 务 占 ， 地 址 分 别 为 127.0.0.1: 6379 和 
127.0.0.1:12345， 如 果 我 们 向 服务 器 127.0.0.1:12345 发 送 以 下 命令 : 


127.0.0.1:12345> SLAVEOF 127.0.9.1 6379 
OK 


那么 服务 器 127.0.0.1:12345 将 成 为 127.0.0.1:6379 的 从 服务 器 ， 而 服 
务 器 127.0.0.1:6379 则 会 成 为 127.0.0.1:12345 的 主 服 务 器 。 


进行 复制 中 的 主 从 服务 器 双方 的 数据 库 将 保存 相同 的 数据 ， 概 念 上 
将 这 种 现象 称 作 “数据 库 状 态 一 致 "， 或 者 简称 “一 致 ”。 


比如 说 ， 如 果 我 们 在 主 服 务 器 上 执行 以 下 命令 : 





127.0.0.1:6379> SET msg "hello world" 
OK 


那么 我 们 应 该 既 可 以 在 主 服 务 占 上 获取 msg 键 的 值 : 


127.0.0.1:6379> GET msg 
"hello world" 


又 可 以 在 从 服务 器 上 获取 msg 键 的 值 : 


127.0.0.1:12345> GET msg 
"hello world" 


另 一 方面 ， 如 果 我 们 在 主 服务 器 中 删除 了 键 msg: 


127.0.0.1:6379> DEL msg 
(integer) 1 





那么 不 仅 主 服务 器 上 的 msg 键 会 被 删除 : 





127.0.0.1:6379> EXISTS msg 
(integer) 0 


从 服务 占 上 的 msg 键 也 应 该 会 被 删 除 : 





127.0.0.1:12345> EXISTS msg 
(integer) 0 


关于 复制 的 特性 和 用 法 还 有 很 多 ，Redis 官 方 网 站 上 的 《复制 》 文 
档 (http://redis.io/topics/replication〉 己 经 做 了 很 详细 的 介绍 ， 这 里 不 再 
歼 述 。 


本 章 首 先 介绍 Redis 在 2.8 版 本 以 前 使 用 的 旧版 复制 功能 的 实现 原 
理 ， 并 说 明 旧 版 复制 功能 在 处 理 断 线 后 重新 连接 的 从 服务 器 时 ， 会 遇 上 
怎样 的 低 效 情况 。 


接着 ， 本 革 将 介绍 Redis 从 2.8 版 本 开始 使 用 的 新 版 复制 功能 是 如 何 
通过 部 分 重 同步 来 解决 旧版 复制 功能 的 低 效 问题 的 ， 并 说 明 部 分 重 同步 
的 实现 原理 。 

在 此 之 后 ， 本 章 将 列举 SLAVEOF 命 令 的 具体 实现 步骤 ， 并 在 本 章 


最 后 ， 说 明 主 从 服务 器 心跳 检测 机 制 的 实现 原理 ， 并 对 基于 心跳 检测 实 
现 的 几 个 功能 进行 介绍 。 


15.1 旧版 复制 功能 的 实现 


Redis 的 复制 功能 分 为 同步 〈sync) 和 命令 传播 (command 
propagate) 两 个 操作 : 


同步 操作 用 于 将 从 服务 器 的 数据 库 状 态 更 新 至 主 服务 硕 当 前 所 处 
的 数据 库 状 态 。 


-命令 传播 操作 则 用 于 在 主 服 务 器 的 数据 库 状 态 被 修改 ， 导 致 主 从 
ee 致 时 ， 让 主 从 服务 器 的 数据 库 重 新 回 到 一 
致 状态 。 


本 节 接 下 来 将 对 同步 和 命令 传播 两 个 操作 进行 详细 的 介绍 。 
15.1.1 同步 


当 客户 端 向 从 服务 器 发 送 SLAVEOF 命 令 ， 要 求 从 服务 器 复制 主 服 
务 器 时 ， 从 服务 器 首先 需要 执行 同步 操作 ， 也 即 是 ， 将 从 服务 器 的 数据 
库 状 态 更 新 至 主 服 务 器 当前 所 处 的 数据 库 状 态 。 


从 服务 器 对 主 服务 器 的 同步 操作 需要 通过 癌 主 服务 器 发 送 SYNC 命 
令 来 完成 ， 以 下 是 SYNC 命 令 的 执行 步骤 : 


1) 从 服务 右 问 主 服务 嚣 发送 SYNC 合 令 。 


2) 收 到 SYNC 命 令 的 主 服务 器 执行 BGSAVE 命 令 ， 在 后 从 生成 一 ly 
RDB 文 件 ， 并 使 用 一 个 缓冲 区 记录 从 现在 开始 执行 的 所 有 写 命令 。 


3) 当主 服务 器 的 BGSAVE 命 令 执 行 完毕 时 ， 主 服务 器 会 将 
BGSAVE 命 令 生成 的 RDB 文 件 发 送 给 从 服务 器 ， 从 服务 器 接收 并 载 入 这 
个 RDB 文 件 ， 将 自己 的 数据 库 状 态 更 新 至 主 服务 器 执行 BGSAVE 命 令 时 
的 数据 库 状态 。 


4) 0 绥 冲 区 里 面 的 所 有 写 命令 发 送 给 从 服务 右 ， 
从 服务 器 执行 这 些 写 命 令 ， 将 目 己 的 数据 库 状 态 更 新 至 主 服务 需 数 据 库 
当前 所 处 的 状态 。 





图 15-2 展 示 了 SYNC 命 令 执行 期 间 ， 主 从 服务 占 的 通信 过 程 。 


发 送 SYNC 命 今 


的 所 有 写 命令 
图 15-2” 主 从 服务 器 在 执行 SYNC 命 令 期 间 的 通信 过 程 
表 15-1 展 示 了 一 个 主 从 服务 器 进行 同步 的 例子 。 
表 15-1 主 从 服务 器 的 同步 过 程 





四 Tr 
和 

1 

1 

了 

HH | | 的 


接收 到 从 服务 器 发 来 的 SYNC 售 令 ， 执 行 3GS4 殉 命令， 
地 向 、k2、k3 的 RDB 文 件 ， 闪 使 用 缠 区 沁 录 
接 下 来 和 的 所 有 生命 人 


16 执行 SET k4 V4， 并 将 这 个 售 令 记录 到 缓冲 区 里 面 
站 执行 SET k5 v5, 并 将 这 个 信人 记录 到 缓冲 区 里 面 
T8 | 8GS4VE 命令 执行 完毕 ， 四 从 服务 器 发 送 RDB 文件 


接收 并 载 入 主 服 务 器 发 来 的 RDB 广 
件 ,获得 kl1、k2、k3 三 个 刍 





癌 从 服务 器 发 送 缓冲 区 中 保存 的 写 命令 SET k4 v4 和 


TI 
SET k5 V5 
i 接收 并 执行 主 服务 器 发 来 的 两 个 SE7 
命令 ,得 到 k4 和 kk5 两 个 键 
同步 完成 ， 现 在 主 从 服务 器 两 者 的 
司 步 完 成 ， 现 在 主 从 服务 顷 两 由 库 都 包 
i 同步 完成 ， 现 在 主 从 服务 器 两 者 的 数据 库 都 包含 了 刍 所 放 者 亿 仿 了 刍 KI、k2、k3、 


Kl、 k2、 k3、 kK4 和 k5 


|k9 





15.1.2 命令 传播 


在 同步 操作 执行 完毕 之 后 ， 主 从 服务 器 两 者 的 数据 库 将 达到 一 致 状 

， 但 这 种 一 致 并 不 是 一 成 不 变 的 ， 每 当主 服务 器 执行 客户 端 发 送 的 写 

信人 时 ， 服务 名 放 训 有 可 能 人 人 上 开导 直人 有 和 
至 


举 个 例子 ， 假 设 一 个 主 服务 器 和 一 个 从 服务 器 刚刚 完成 同步 操作 ， 
它们 的 数据 库 都 保存 了 相同 的 五 个 键 K1 至 k5， 如 图 15-3 所 示 。 


如 果 这 时 ， 客 户 端 向 主 服务 器 发 送 命令 DEL k3， 那 么 主 服务 器 在 执 
行 完 这 个 DEL 命令 之 后 ， 主 从 服务 器 的 数据 库 将 出 现 不 一 致 : 主 服 务 器 
的 数据 库 已 经 不 再 包含 键 k3， 但 这 个 键 却 仍然 包含 在 从 服务 器 的 数据 库 
里 面 ， 如 图 15-4 所 示 。 








图 15-4 ”处 于 不 一 致 状态 的 主 从 服务 器 


为 了 让 主 从 服务 器 再 次 回 到 一 致 状态 ， 主 服务 器 需要 对 从 服务 器 执 
行 命令 传播 操作 : 主 服 务 器 会 将 自己 执行 的 写 命令 ， 也 即 是 造成 主 从 服 
务 器 不一致 的 那 条 写 命 令 ， 发 送 给 从 服务 器 执行 ， 当 从 服务 占 执 行 了 相 
同 的 写 命令 之 后 ， 主 从 服务 器 将 再 次 回 到 一 致 状态 。 





在 上 面 的 例子 中 ， 主 服务 需 因 为 执行 了 命令 DEL k3 而 导致 主 从 服务 
需 人 不 一 致 ， 所 以 主 服务 需 将 问 从 服务 器 发 送 相同 的 命令 DEL k3。 当 从 服 
务 器 执行 完 这 个 命令 之 后 ， 主 从 服务 占 将 再 次 回 到 一 致 状态 ， 现 在 主 从 
服务 器 两 者 的 数据 库 都 不 再 包 合 键 K3 了 ， 如 图 15-5 所 示 。 





图 15-5” 主 服务 器 问 从 服务 器 发 送 合 令 


15.2 ”旧版 复制 功能 的 缺陷 
在 Redis 中 ， 从 服务 器 对 主 服务 器 的 复制 可 以 分 为 以 下 两 种 情况 ; 


初次 复制 : 从 服务 器 以 前 没有 复制 过 任何 主 服务 硕 ， 或 者 从 服务 
器 当前 要 复制 的 主 服务 器 和 上 一 次 复制 的 主 服务 器 不 同 。 

- 断 线 后 重复 制 : 处 于 命令 传播 阶段 的 主 从 服务 器 因为 网 络 原因 而 
中 断 了 复制 ， 但 从 服务 器 通过 自动 重 连接 重新 连 上 了 主 服务 器 ， 并 继续 
复制 主 服务 器 。 

对 于 初次 复制 来 说 ， 旧 版 复制 功能 能 够 很 好 地 完成 任务 ， 但 对 于 断 
线 后 重复 制 来 说 ， 旧 版 复制 功能 虽然 也 能 让 主 从 服务 器 重新 回 到 一 致 状 
态 ， 但 效率 却 非 常 低 。 

要 理解 这 一 情况 ， 请 看 表 15-2 展 示 的 断 线 后 重复 制 例子 。 


表 15-2 ”从 服务 器 在 断 线 之 后 重新 复制 主 服务 妖 的 例子 











时 间 主 服务 器 从 服务 器 
10 主 从 服务 咯 完 成 同步 主 从 服务 融 完 成 同步 
执行 并 传播 SET kl vl 执行 主 服务 锅 传 来 的 SB kl vl 
了 执行 并 传播 SET k2 v2 执行 主 服务 部 传 来 的 SET k2 v2 


行 主 服务 器 传 来 的 SET k10085 
T10085 | 执行 并 传播 SET k10085 v10085 扫 行 主 服务 加 人 来 的 


v10085 
T10086 | 执行 并 传播 SET k10086 v10086 NS We 
T10087 主 从 服务 名 连 技 断 开 

T10088 肠 线 中 ， 滨 试 重新 连接 主 服务 品 
TI 有 线 中 ， 当 新地 
T1009 斯 线 中 ， 坚 试 重新 连接 主 服务 器 





T1009l 主 从 服务 希 重 新 连接 主 从 服务 器 重新 连接 
TI1000 一 门 主 服务 器 发 送 SYNC 偷 信 
接收 到 从 服务 器 发 来 的 SZNC 价 仿 ,执行 G84 了 VE 谷 
T10093 | 今 ， 创建 包含 由 c] 至 健 k10089 的 RDB 文件 ， 并 使 
用 缓冲 区 记录 接 下 来 执行 的 所 有 写 命令 


T10094 BG34VE 偷 令 执 行 完毕 ， 加 从 服务 器 发 送 RDB 文件 


T10095 接收 并 载 入 主 服务 器 发 来 的 RDB 文件 ， 
大 得 健 1 至 委 10089 


为 在 BGS4VE 命令 执行 期 间 ， 主 服务 器 没有 执行 
任何 写 命令 ， 所 以 跳 过 发 送 缓冲 区 包含 的 写 命令 这 一步 


T10097 从 服务 占 再 次 完成 癌 此 让 从 服务 只 得 次 完成 同步 





T100% 





在 时 间 T10091， 从 服务 器 终于 重新 连接 上 主 服务 器 ， 因 为 这 时 主 从 
服务 器 的 状态 已 经 不 再 一 致 ， 所 以 从 服务 器 将 向 主 服 务 器 发 送 SYNC 命 
令 ， 而 主 服务 器 会 将 包含 键 k1 至 键 k10089 的 RDB 文 件 发 送 给 从 服务 器 ， 
从 服务 器 通过 接收 和 载 入 这 个 RDB 文 件 来 将 自己 的 数据 库 更 新 至 主 服务 
器 数据 库 当 前 所 处 的 状态 。 


虽然 再 次 发 送 SYNC 命 令 可 以 让 主 从 服务 器 重 新 回 到 一 致 状态 ， 但 
如 果 我 们 仔细 研究 这 个 断 线 重 复制 过 程 ， 就 会 发 现 传 送 RDB 文 件 这 一 步 
实际 上 并 不 是 非 做 不 可 的 : 


: 主 从 服务 器 在 时 间 T0 至 时 间 T10086 中 一 直 处 于 一 致 状态 ， 这 两 个 
服务 器 保存 的 数据 大 部 分 都 是 相同 的 。 


:从 服务 器 想 要 将 自己 更 新 至 主 服务 器 当前 所 处 的 状态 ， 真 正 需要 
的 是 主 从 服务 器 连接 中 断 期 间 ， 主 服务 器 新 添加 的 k10087、k10088、 
k10089 三 个 键 的 数据 。 


:可 惜 的 是 ， 旧 版 复制 功能 并 没有 利用 以 上 列举 的 两 点 条 件 ， 而 是 
继续 让 主 服务 器 生成 并 同 从 服务 器 发 送 包含 刍 k1 至 刍 k10089 的 RDB 文 
件 ， 但 实际 上 RDB 文 件 包含 的 键 k1 至 键 k10086 的 数据 对 于 从 服务 器 来 说 
都 是 不 必要 的 。 


上 面 给 出 的 例子 可 能 有 一 点 理想 化 ， 因 为 在 主 从 服务 器 断 线 期 间 ， 
主 服 务 器 执行 的 写 命令 可 能 会 有 成 日 上 王 个 之 多 ， 而 不 仅仅 是 两 三 个 写 
命令 。 但 总 的 来 说 ， 主 从 服务 器 断 开 的 时 间 越 短 ， 主 服务 器 在 断 线 期 间 
执行 的 写 命令 就 越 少 ， 而 执行 少量 写 命令 所 产生 的 数据 量 通 常 比 整 个 数 
据 库 的 数据 量 要 少 得 多 ， 在 这 种 情况 下 ， 为 了 让 从 服务 器 补足 一 小 部 分 
缺失 的 数据 ， 却 要 让 主 从 服务 器 重新 执行 一 次 SYNC 命 令 ， 这 种 做 法 无 
疑 是 非常 低 效 的 。 











SYNC 命 令 是 一 个 非常 耗费 资源 的 操作 





每 次 执行 SYNC 命 令 ， 主 从 服务 器 需要 执行 以 下 动作 : 

1) 主 服务 器 需要 执行 BGSAVE 命 令 来 生成 RDB 文 件 ， 这 个 生 
成 操作 会 耗费 主 服 务 器 大 量 的 CPU、 内 存 和 磁盘 IO 资源 。 

2) 主 服务 器 需要 将 自己 生成 的 RDB 文 件 发 送 给 从 服务 器 ， 这 
个 发 送 操作 会 耗费 主 从 服务 器 大 量 的 网 络 资源 (带宽 和 流量 ) ， 并 
对 主 服务 器 响应 命令 请 求 的 时 间 产 生 影 响 。 


3) 接收 到 RDB 文 件 的 从 服务 器 需要 载 入 主 服 务 器 用 来 的 RDB 
并 且 在 载 入 期 间 ， 从 服务 器 会 因为 阻塞 而 没 办 法 处 理 命令 请 


为 SYNC 命 令 是 一 个 如 此 耗费 资源 的 操作 ， 所 以 Redis 有 必要 
保证 在 真正 有 需要 时 才 执 行 SYNC 命 令 。 





15.3 ”新 版 复制 功能 的 实现 


为 了 解决 旧版 复制 功能 在 处 理 断 线 重复 制 情 况 时 的 低 效 问题 ， 
Ln 使 用 PSYNC 命 令 代 蔡 SYNC 命 令 来 执行 复制 时 的 
同步 操作 。 


PSYNC 命 令 具 有 完整 重 同 步 《〈full resynchronization ) 和 部 分 重 同 步 
(partial resynchronization ) 两 种 模式 : 


其 中 完整 重 同步 用 于 处 理 初 次 复制 情况 : 完整 重 同 步 的 执行 步 又 
和 SYNC 命 令 的 执行 步骤 基本 一 样 ， 它 们 都 是 通过 让 主 服务 器 创建 并 及 
送 RDB 文 件 ， 以 及 向 从 服务 器 及 送 保存 在 缓冲 区 里 面 的 写 命令 来 进行 同 


2 





:而 部 分 重 同步 则 用 于 处 理 断 线 后 重复 制 情况 : 当 从 服务 器 在 断 线 
后 重新 连接 主 服务 器 时 ， 如 宁 条 件 多 许 ， 主 服务 器 可 以 将 主 从 服务 器 连 
接 断 开 期 间 执行 的 写 命 令 发 送 给 从 服务 器 ， 从 服务 器 只 要 接收 并 执行 这 
些 写 命令 ， 就 可 以 将 数据 库 更 新 至 主 服 务 器 当前 所 处 的 状态 。 

PSYNC 命 令 的 部 分 重 同 步 模 式 解 决 了 旧版 复制 功能 在 处 理 断 线 后 
重复 制 时 出 现 的 低 效 情况 ， 表 15-3 展 示 了 如 何 使 用 PSYNC 命 令 高 效 地 处 
理 上 一 节 展 示 的 断 线 后 复制 情况 。 


表 15-3 ”使 用 PSYNC 命 令 来 进行 断 线 后 重复 制 








T10085 
T10086 
T10087 
T10088 
T10089 
T10090 


T10091 
T10092 


主 服务 器 
主 从 服务 器 完成 同步 
执行 并 传播 SET kl vl 
执行 并 传播 SET k2 v2 


从 服务 器 
主 从 服务 加 完成 同步 
执行 主 服务 器 传 来 的 SET kl v1 
执行 主 服务 器 传 来 的 SET k2 v2 


执行 并 传播 SET k10085 v10085 
执行 并 传播 SET k10086 v10086 


主 从 服务 器 连接 断 开 
执行 SET k10087 v10087 


执行 SET k10088 v10088 


执行 SET k10089 v10089 
主 从 服务 器重 新 连接 


执行 主 服 务 回 传 来 的 SET k10085 v10085 
执行 主 服务 器 传 来 的 SET k10086 v10086 
主 从 服务 奖 连 按 断 开 

断 线 中 ， 些 试 重新 连接 主 服务 器 

断 线 中 ， 尝 试 重新 连接 主 服务 器 

断 线 中 ， 坚 斌 重新 连接 主 服务 器 

主 从 服务 器 重新 连接 

站 主 服 务 问 发 送 PSYNC 命令 


T10093 问 从 服务 器 返回 +CONTINUE 回复 ， 表 示 执 





行 部 分 重 同步 
T10094 LL | 接收 +CONTINUE 回复 ， 准 名 执行 部 分 重 同步 
T10095 问 从 服务 器 发 送 SET k10087 v10087、 


SET kK10088 vi0088 SET X10089 


V10089 三 个 命令 


T10097 主 从 服务 器 再 次 完成 同步 主 从 服务 器 再 次 完成 同步 








对 比 一 下 SYNC 命 令 和 PSYNC 命 令 处 理 断 线 重 复制 的 方法 ， 不 难看 
出 ， 虽 然 SYNC 命 令 和 PSYNC 命 令 都 可 以 让 断 线 的 主 从 服务 器 重新 回 到 
一 致 状态 ， 但 执行 部 分 重 同步 所 需 的 资源 比 起 执行 SYNC 命 令 所 需 的 资 
源 要 少 得 多 ， 完 成 同步 的 速度 也 快 得 多 。 执 行 SYNC 命 令 需 要 生成 、 人 4 
送 和 载 入 整个 RDB 文 件 ， 而 部 分 重 同步 只 需要 将 从 服务 器 缺少 的 写 命令 


发 送 给 从 服务 器 执行 就 可 以 了 。 
图 15-6 展 示 了 主 从 服务 占 在 执行 部 分 重 同步 时 的 通信 过 程 。 








发 送 主 从 服务 器 断 线 期 间 
主 服 务 需 执行 的 写 命令 


图 15-6 ” 主 从 服务 器 执行 部 分 重 同 步 的 过 程 





15.4 部 分 重 同步 的 实现 


在 了 解 了 PSYNC 命 令 的 由 来 ， 以 及 部 分 重 同 步 的 工作 方式 之 后 ， 
是 时 候 来 介绍 一 下 部 分 重 同 步 的 实现 细节 了 。 


部 分 重 同步 功能 由 以 下 三 个 部 分 构成 : 


: 主 服 务 器 的 复制 偏 移 量 (replication offset〉 和 从 服务 器 的 复制 偏 移 


-下 
里 。 








主 服务 器 的 复制 积压 缓冲 区 (replication backlog) 。 
.服务 器 的 运行 ID (run ID ) 。 
以 下 三 个 小 节 将 分 别 介绍 这 三 个 部 分 。 
15.4.1 复制 偏 移 量 
执行 复制 的 双方 一 一 主 服 务 器 和 从 服务 器 会 分 别 维护 一 个 复制 偏 移 











tn 


: 主 服 务 器 每 次 同 从 服务 器 传播 N 个 字 节 的 数据 时 ， 就 将 自己 的 复制 
偏 移 量 的 值 加 上 N。 


从 服务 器 每 次 收 到 主 服务 器 传播 来 的 N 个 字 节 的 数据 时 ， 残 将 目 己 
的 复制 偏 移 量 的 值 加 上 N。 


在 图 15-7 所 示 的 例子 中 ， 主 从 服务 器 的 复制 偏 移 量 的 值 都 为 
10086。 


从 服务 器 A 
offset = 10086 


主 服务 器 从 服务 器 了 B 
offset = 10086 offset = 10086 
从 服务 器 C 


offset = 10086 
图 15-7 拥有 相同 偏 移 量 的 主 服 务 器 和 它 的 三 个 从 服务 器 


如 果 这 时 主 服务 器 向 三 个 从 服务 器 传播 长 度 为 33 字 节 的 数据 ， 那 么 
主 服务 器 的 复制 偏 移 量 将 更 新 为 10086+33=10119， 而 三 个 从 服务 器 在 接 
0 
15-8 有 所 示 。 
























从 服务 器 A 
offset = 10119 






主 服务 器 
offset = 10119 


从 服务 器 B 
offset = 10119 












从 服务 器 C 
offset = 10119 


图 15-8 ”更 新 偏 移 量 之 后 的 主 从 服务 占 


通过 对 比 主 从 服务 器 的 复制 偏 移 量 ， 程 序 可 以 很 容易 地 知道 主 从 服 
务 骨 是 售 处 于 一 致 状态 : 

















-如 宁 主 从 服务 器 处 于 一 致 状态 ， 那 么 主 从 服务 器 两 者 的 俩 移 量 总 
征 相同 的 。 








相反， 如 果 主 从 服务 器 两 者 的 偶 移 量 并 不 相同 ， 那 么 说 明 主 从 服 
务 吉 并 未 处 于 一 致 状态 。 





考虑 以 下 这 个 例子 : 假设 如 图 15-7 所 示 ， 主 从 服务 器 当前 的 复制 偏 
移 量 都 为 10086， 但 是 就 在 主 服 务 器 要 问 从 服务 咒 传 播 长 度 为 33 字 的 
数据 之 前 ， 从 服务 占 A 汤 线 了 ， 那 么 主 服 务 器 传播 的 数据 将 只 有 从 服务 
器 B 和 从 服务 器 C 能 收 到 ， 在 这 之 后 ， 主 服务 器 、 从 服务 器 B 和 从 服务 器 
C 三 个 服务 器 的 复制 偏 移 量 都 将 更 新 为 10119， 而 断 线 的 从 服务 器 A 的 复 
制 偏 移 量 仍然 停留 在 10086， 这 说 明 从 服务 器 A 与 主 服 务 絮 并 不 一 致 ， 


如 图 15-9 所 示 。 
从 服务 器 A 
a "| Offset = 10086 
WW 


-传播 33 字 节 数 据 












主 服 务 器 
offset = 10119 


从 服务 器 B 
offset = 10119 















从 服务 器 C 
offset = 10119 
图 15-9 ”因为 断 线 而 处 于 不 一 致 状态 的 从 服务 器 A 


假设 从 服务 器 A 在 断 线 之 后 就 立即 重新 连接 主 服 务 器 ， 并 且 成 功 ， 
那么 接 下 来 ， 从 服务 器 将 同 主 服务 器 发 送 PSYNC 命 令 ， 报 告 从 服务 器 A 
当前 的 复制 偏 移 量 为 10086， 那 么 这 时 ， 主 服务 器 应 该 对 从 服务 器 执行 
完整 重 同 步 还 是 部 分 重 同步 呢 ? 如 果 执 行 部 分 重 同步 的 话 ， 主 服务 器 又 
如 何 补偿 从 服务 器 A 在 断 线 期 间 丢 失 的 那 部 分 数据 呢 ? 以 上 问题 的 答案 
都 和 复制 积压 缓冲 区 有 关 。 


15.4.2 ”复制 积压 缓冲 区 











复制 积压 缓冲 区 是 由 主 服务 器 维护 的 一 个 固定 长 度 〈fixed-size) 先 
进 先 出 〈EFIFO) 队列 ， 默 认 大 小 为 1IMB。 





固定 长 度 先 进 先 出 队列 

国定 长 度 先进 先 出 队列 的 入 队 和 出 队 规则 跟 普 通 的 先进 先 出 队 
列 一 样 : 新 元 素 从 一 边 进入 队列 ， 而 旧 元 素 从 另 一 边 弹出 队列 。 

和 普通 先进 先 出 队列 随 着 元 素 的 增加 和 减少 而 动态 调整 长 度 不 
同 ， 固 定 长 度 先 进 先 出 队列 的 长 度 是 固定 的 ， 当 入 队 元 素 的 数量 大 
Oe 
列 。 

举 个 例子 ， 如 果 我 们 要 将 各、'e、T、1'、'0' 五 个 字符 放 进 一 个 
长 度 为 3 的 固定 长 度 先 进 先 出 队列 里 面 ， 那 么 hr 、'e'、7 三 个 字符 将 
首先 被 放 入 队列 : 

['h','e', 1] 


但 是 当 后 一 个 1 字符 要 进入 队列 时 ， 队 首 的 bh 字符 将 被 弹出 ， 
队列 变 成 : 


['e ,YT,，"]] 
接着 ，'0' 的 入 队 会 引起 'e' 的 出 队 ， 队 列 变 成 : 
国电 
以 上 就 是 固定 长 度 先进 先 出 队列 的 运作 方式 。 














当主 服务 器 进行 命令 传播 时 ， 它 不 仅 会 将 写 命令 发 送 给 所 有 从 服务 
器， 还 会 将 写 命令 入 队 到 复制 积压 缓冲 区 里 面 ， 如 图 15-10 所 示 。 


广 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


主 服务 器 | 
将 写 命令 放 人 队列 | 复制 积压 缓冲 区 


发 送 写 命 人 他 务 才 A 
> 六 全 合作 
并 从 服务 器 B 


发 送 写 命 仿 





| 全 人 传播 程序 


图 15-10 主 服 务 器 癌 复 制 积 压 缓冲 区 和 所 有 从 服务 器 传播 写 命令 数 据 

因此 ， 主 服务 器 的 复制 积压 缓冲 区 里 面 会 保存 着 一 部 分 最 近 传 播 的 
写 命令 ， 并 且 复 制 积压 缓冲 区 会 为 队列 中 的 每 个 字 节 记录 相应 的 复制 俩 
移 量 ， 就 像 表 15-4 展 示 的 那样 。 


表 15-4 ”复制 积压 绥 冲 区 的 构造 


四 10088 | 10089 | 10090 " 10092 | 10093 | 10094 | 10095 | 10096 | 10097 | 


当 从 服务 占 重 新 连 上 主 服 务 器 时 ， 从 服务 莫 会 通过 PSYNC 命 令 将 
目 己 的 复制 偏 移 量 offset 发 送 给 主 服务 器 ， 主 服务 器 会 根据 这 个 复制 偏 

















移 量 来 决定 对 从 服务 需 执 行 何 种 同步 操作 : 


如果 offset 偏 移 量 之 后 的 数据 (也 即 是 偏 移 量 offset+1 开 始 的 数据 ) 
0 肉 压 缓 冲 区 里 面 ， 那 么 主 服务 器 将 对 从 服务 占 执 行 部 分 
重 同步 操作 。 


“相反 ， 如 果 offset 偏 移 量 之 后 的 数据 已 经 不 存在 于 复制 积压 缓冲 
区 ， 那 么 主 服务 器 将 对 从 服务 器 执行 完整 重 同 步 操作 。 


回 到 之 前 图 15-9 展 示 的 断 线 后 重 连接 例子 : 


: 当 从 服务 如 A 断 线 之 后 ， 它 立即 重新 连接 主 服 务 器 ， 并 回 主 服务 器 
发 送 PSYNC 命 令 ， 报 告 自己 的 复制 偏 移 量 为 10086。 


: 主 服务 器 收 到 从 服务 器 发 来 的 PSYNC 命 令 以 及 偏 移 量 10086 之 后 ， 
主 服务 器 将 检查 偏 移 量 10086 之 后 的 数据 是 否 存 在 于 复制 积压 缓冲 区 里 
面 ， 结 果 发 现 这 些 数据 仍然 存在 ， 于 是 主 服务 器 向 从 服务 器 发 送 
+CONTINUE 回 复 ， 表 示 数 据 同 步 将 以 部 分 重 同 步 模式 来 进行 。 


-接着 主 服务 器 会 将 复制 积压 缓冲 区 10086 偏 移 量 之 后 的 所 有 数据 
( 偏 移 量 为 10087 至 10119) 都 发 送 给 从 服务 器 。 


.从 服务 器 只 要 接收 这 33 字 节 的 缺失 数据 ， 就 可 以 回 到 与 主 服 务 器 
一 致 的 状态 ， 如 图 15-11 所 示 。 

































从 服务 器 A 
offset = 10119 





发 送 断 线 时 缺失 的 
33 字 节 数据 












主 服 务 器 
offset = 10119 


从 服务 器 也 
offset = 10119 





从 服务 器 C 


offset = 10119 
图 15-11 主 服 务 嚣 回 从 服务 器 发 送 缺 失 的 数据 





根据 需要 调整 复制 积压 缓冲 区 的 大 小 





Redis 为 复制 积压 缓冲 区 设置 的 默认 大 小 为 IMB， 如 果 主 服务 
器 需要 执行 大 量 写 命令 ， 双 或 者 主 从 服务 器 断 线 后 重 连接 所 需 的 时 
间 比 较 长 ， 那 么 这 个 大 小 也 许 并 不 合适 。 如 果 复 制 积压 绥 冲 区 的 大 
小 设置 得 不 愉 当 ， 那 么 PSYNC 命 令 的 复制 重 同步 模式 就 不 能 正 营 
0 因此 ， 正 确 估算 和 设置 复制 积压 缓冲 区 的 大 小 非常 重 











复制 积压 缓冲 区 的 最 小 大 小 可 以 根据 公式 


second*write_size_per_second 来 估算 : 


:其 中 second 为 从 服务 器 断 线 后 重新 连接 上 主 服务 器 所 需 的 平均 
时 间 (以 秒 计算 )。 


:而 write_size_per_second 则 是 主 服务 器 平均 每 秒 产生 的 写 命令 
数据 量 〈 协 议 格 式 的 写 命 令 的 长 度 总 和 ) 。 


例如 ， 如 果 主 服务 器 平均 每 秒 产生 1 MB 的 写 数据 ， 而 从 服务 


器 断 线 之 后 平均 要 5 秒 才能 重新 连接 上 主 服 务 器 ， 那 么 复制 积压 组 
冲 区 的 大 小 就 不 能 低 于 5MB。 


为 了 安全 起 见 ， 可 以 将 复制 积压 缓冲 区 的 大 小 设 为 
2*second*write_size_per_second， 这 样 可 以 保证 绝 大 部 分 断 线 情况 
都 能 用 部 分 重 同步 来 处 理 。 


至 于 复制 积压 缓冲 区 大 小 的 修改 方法 ， 可 以 参考 配置 文件 中 关 
于 repl-backlog-size 选 项 的 说 明 。 








15.4.3 ”服务 器 运行 ID 


除了 复制 偏 移 量 和 复制 积压 缓冲 区 之 外 ， 实 现 部 分 重 同步 还 需要 用 
到 服务 器 运行 ID (run ID ) : 


-每 个 Redis 服 务 器 ， 不 论 主 服 务 器 还 是 从 服务 ， 都 会 有 目 己 的 运行 
ID 。 














.运行 ID 在 服务 器 启动 时 自动 生成 ， 由 40 个 随机 的 十 六 进 制 字符 组 
成 ， 例 如 53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3。 


当 从 服务 器 对 主 服务 器 进行 初次 复制 时 ， 主 服务 需 会 将 自己 的 运行 
ID 传送 给 从 服务 器 ， 而 从 服务 器 则 会 将 这 个 运行 ID 保存 起 来 。 


当 从 服务 如 断 线 并 重新 连 上 一 个 主 服务 器 时 ， 从 服务 露 将 回 当 前 连 
接 的 主 服 务 右 发 送 之 前 保存 的 运行 ID: 


.如 果 从 服务 器 保存 的 运行 ID 和 当前 连接 的 主 服 务 器 的 运行 ID 相 
同 ， 那 么 说 明 从 服务 器 断 线 之 前 复制 的 就 是 当前 连接 的 这 个 主 服 务 器 
主 服务 器 可 以 继续 尝试 执行 部 分 重 同 步 操 作 。 


:相反 地 ， 如 果 从 服务 器 保存 的 运行 ID 和 当前 连接 的 主 服务 器 的 运 
行 ID 并 不 相同 ， 那 么 说 明 从 服务 器 断 线 之 前 复制 的 主 服务 器 并 不 是 当前 
连接 的 这 个 主 服务 器 ， 主 服务 器 将 对 从 服务 圳 执行 完整 重 同 步 操 作 。 


举 个 例子 ， 假 设 从 服务 器 原本 正在 复制 一 个 运行 ID 为 
53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3 的 主 服务 器 ， 那 么 在 网 络 断 

















开 ， 从 服务 器 重新 连接 上 主 服务 器 之 后 ， 从 服务 器 将 向 主 服 务 器 发 送 这 
个 运行 ID， 主 服务 塔 根据 自己 的 运行 ID 是 否 
53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3 来 判断 是 执行 部 分 重 同步 还 
是 执行 完整 重 同步 。 





15.5 PSYNC 命 令 的 实现 


到 目前 为 止 ， 本 章 在 介绍 PSYNC 命 令 时 一 直 没 有 说 明 PSYNC 命 令 
的 参数 以 及 返回 值 ， 因 为 那 时 我 们 还 未 了 解 服务 器 运行 ID、 复 制 偏 移 
量 、 复 制 积压 缓冲 区 这 些 东 西 ， 在 学 习 了 部 分 重 同步 的 实现 原理 之 后 ， 
我 们 现在 可 以 来 了 解 PSYNC 命 令 的 完整 细节 了 。 


PSYNC 命 令 的 调用 方法 有 两 种 : 


如果 从 服务 器 以 前 没有 复制 过 任何 主 服务 器 ， 或 者 之 前 执行 过 
SLAVEOF no _ one 命令， 那么 从 服务 器 在 开始 一 次 新 的 复制 时 将 同 主 服 
务 右 发 送 PSYNC ? -1 命令 ， 主 动 请 求 主 服 务 器 进行 完整 重 同 步 ( 因 为 这 
时 不 可 能 执行 部 分 重 同步 ) 。 


-相反 地 ， 如 果 从 服务 器 已 经 复制 过 某 个 主 服 务 器 ， 那 么 从 服务 器 
在 开始 一 次 新 的 复制 时 将 癌 主 服 务 器 发 送 PSYNC <runid> ”<offset> 命 
令 : 其 中 runid 是 上 一 次 复制 的 主 服务 器 的 运行 ID， 而 offset 则 是 从 服务 
器 当前 的 复制 偏 移 量 ， 接 收 到 这 个 命令 的 主 服 务 器 会 通过 这 两 个 参数 来 
判断 应 该 对 从 服务 器 执行 哪 种 同步 操作 。 


根据 情况 ， 接 收 到 PSYNC 命 令 的 主 服 务 器 会 向 从 服务 器 返回 以 下 
三 种 回复 的 其 中 一 种 : 


.如 果 主 服务 器 返回 +FULLRESYNC <runid> <offset> 回 复 ， 那 么 表 
示 主 服务 器 将 与 从 服务 器 执行 完整 重 同步 操作 : 其 中 runid 是 这 个 主 服务 
器 的 运行 ID， 从 服务 器 会 将 这 个 ID 保存 起 来 ， 在 下 一 次 发 送 PSYNC 命 
令 时 使 用 ;而 offset 则 是 主 服 务 器 当前 的 复制 偏 移 量 ， 从 服务 器 会 将 这 
个 值 作为 自己 的 初始 化 偏 移 量 。 


.如 果 主 服务 器 返回 +CONTINUE 回 复 ， 那 么 表示 主 服务 器 将 与 从 服 
务 器 执行 部 分 重 同 步 操 作 ， 从 服务 器 只 要 等 着 主 服 务 器 将 自己 缺少 的 那 
部 分 数据 发 送 过 来 就 可 以 了 。 

:如 果 主 服务 器 返回 -ERR 回 复 ， 那 么 表示 主 服务 器 的 版 本 低 于 Redis 
2.8， 它 识别 不 了 PSYNC 命 令 ， 从 服务 器 将 问 主 服务 器 发 送 SYNC 命 令 ， 
并 与 主 服 务 器 执行 完整 同步 操作 。 



































流程 图 15-12 总 结 了 PSYNC 命 令 执 行 完 整 重 同步 和 部 分 重 同步 时 可 
能 遇 上 的 情况 。 


从 服务 器 接 到 客户 端 发 来 的 SLAVEOF 命令 









这 是 从 服务 器 第 一 次 执行 复制 ? 


问 主 服务 器 发 送 
PSYNC ? -1 


全 
问 主 服务 器 发 送 
PSYNC <runid> <offset> 


主 服务 器 返回 +CONTINUE ? 


是 
主 服务 顺 迟 回 隐 
+FULLRESYNC <runid> <offset> 执行 部 分 重 同步 





执行 完整 重 同步 
图 15-12 ”PSYNC 执 行 完 整 重 同步 和 部 分 重 同 步 时 可 能 遇 上 的 情况 


为 了 熟悉 PSYNC 命 令 的 用 法 ， 让 我 们 来 看 一 个 完整 的 复制 一 一 网 





络 中 断 一 一 重复 制 例子 。 
首先 ， 假 设 有 两 个 Redis 服 务 器 ， 它 们 的 版 本 都 是 Redis 2.8， 其 中 主 





服务 器 的 地 址 为 127.0.0.1:6379， 从 服务 器 的 地 址 为 127.0.0.1:12345。 


如 果 客 户 端 向 从 服务 器 发 送 命令 SLAVEOF 127.0.0.1 6379， 并 且 假 
设 从 服务 器 是 第 一 次 执行 复制 操作 ， 那 么 从 服务 器 将 癌 主 服务 器 发 送 
PSYNC ? -1 命令 ， 请 求 主 服 务 右 执行 完整 重 同 步 操作 。 


主 服 务 器 在 收 到 完整 重 同步 请 求 之 后 ， 将 在 后 台 执 行 BGSAVE 命 
令 ， 并 向 从 服务 器 返回 +FULLRESYNC 
53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3 10086 回 复 ， 其 中 
53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3 是 主 服 务 器 的 运行 ID， 而 
10086 则 是 主 服务 器 当前 的 复制 偏 移 量 。 


假设 完整 重 同步 成 功 执行 ， 并 且 主 从 服务 器 在 一 段 时 间 之 后 仍然 保 
持 一 致 ， 但 是 在 复制 偏 移 量 为 20000 的 时 候 ， 主 从 服务 器 之 间 的 网 络 连 
人 这 时 从 服务 器 将 重新 连接 主 服 务 器 ， 并 再 次 对 主 服 务 需 进行 
| 。 


因为 之 前 曾经 对 主 服务 器 进行 过 复制 ， 所 以 从 服务 占 将 同 主 服务 器 
发 送 命 令 PSYNC 53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3 20000， 请 
求 进行 部 分 重 同步 。 


主 服 务 器 在 接收 到 从 服务 器 的 PSYNC 命 令 之 后 ， 首 先 对 比 从 服务 
器 传 来 的 运行 ID53b9b28df8042fdc9ab5e3fcbbbabff1d5dce2b3 和 主 服务 器 
自身 的 运行 ID， 结 果 显 示 该 ID 和 主 服 务 器 的 运行 ID 相同 ， 于 是 主 服 务 器 
继续 读 取 从 服务 器 传 来 的 偏 移 量 20000， 检 查 偏 移 量 为 20000 之 后 的 数据 
是 否 存在 于 复制 积压 缓冲 区 里 面 ， 结 果 发 现 数据 仍然 存在 。 


确认 运行 ID 相同 并 且 数 据 存 在 之 后 ， 主 服务 器 将 癌 从 服务 器 返回 
+CONTINUE 回 复 ， 表 示 将 与 从 服务 喜 执 行 部 分 重 同步 操作 ， 之 后 主 服 
务 器 会 将 保存 在 复制 积压 缓冲 区 20000 偏 移 量 之 后 的 所 有 数据 发 送 给 从 
服务 器 ， 主 从 服务 器 将 再 次 回 到 一 致 状态 。 





























15.6 复制 的 实现 


通过 同 从 服务 器 及 送 SLAVEOF 命 令 ， 我 们 可 以 让 一 个 从 服务 器 去 
复制 一 个 主 服务 器 : 





SLAVEOF <master_ip> <master_port> 





本 节 将 以 从 服务 器 127.0.0.1:12345 接 收 到 命令 : 





SLAVEOF 127.0.0.1 6379 





为 例 ， 展 示 Redis2.8 或 以 上 版 本 的 复制 功能 的 详细 实现 步 又 。 
15.6.1 步骤 1: 设置 主 服务 器 的 地 址 和 端口 
当 客户 端 向 从 服务 器 发 送 以 下 命令 时 : 





127.0.0.1:12345> SLAVEOF 127.0.0.1 6379 
OK 





从 服务 右 首 先 要 做 的 就 是 将 客户 端 给 定 的 主 服 务 器 耳 地 址 127.0.0.1 
以 及 端口 6379 保 存 到 服务 器 状态 的 masterhost 属 性 和 masterport 属 性 里 
面 : 





Struct redisServer { 
/7 

主 服 务 器 的 地 址 
char *masterhost; 
/7 

主 服 务 器 的 端口 
int masterport 


}; 





图 15-13 展 示 了 SLAVEOF 命 令 执 行 之 后 ， 从 服务 器 的 服务 右 状 态 。 


redlisServer 


masterhost 
ES ls 


masterport 
6379 


图 15-13 ”从 服务 器 的 服务 右 状 态 


SLAVEOF 命 令 是 一 个 异步 命令 ， 在 完成 masterhost 属 性 和 masterport 
属性 的 设置 工作 之 后 ， 从 服务 器 将 回 发 送 SLAVEOF 命 令 的 客户 站 返回 
OK， 表 示 复 制 指 令 已 经 被 接收 ， 而 实际 的 复制 工作 将 在 OK 返回 之 后 才 
真正 开始 执行 。 


15.6.2 ”步骤 2， 建 立 套 接 字 连 接 


在 SLAVEOF 命 令 执 行 之 后 ， 从 服务 器 将 根据 命令 所 设置 的 IP 地 址 
和 端口 ， 创 建 连 向 主 服务 器 的 套 接 字 连 接 ， 如 图 15-14 所 示 。 














主 服务 器 从 服务 器 


127.0.0.1:6379 127.0.0.1:12345 





图 15-14 ”从 服务 器 创建 连 向 主 服 务 器 的 套 接 字 


如 果 从 服务 器 创建 的 套 接 字 能 成 功 连 接 (connect) 到 主 服务 器 ， 那 
么 从 服务 器 将 为 这 个 套 接 字 关联 一 个 专门 用 于 处 理 复 制 工作 的 文件 事件 
处 理 器 ， 这 个 处 理 器 将 负责 执行 后 续 的 复制 工作 ， 比 如 接收 RDB 文 件 ， 
以 及 接收 主 服务 器 传播 来 的 写 命令 ， 诸 如 此 类 。 


而 主 服务 器 在 接受 (accept) 从 服务 器 的 套 接 字 连 接 之 后 ， 将 为 该 
套 接 字 创 建 相 应 的 客户 端 状 态 ， 并 将 从 服务 需 看 作 是 一 个 连接 到 主 服务 
需 的 客户 疹 来 对 待 ， 这 时 从 服务 器 将 同时 具有 服务 器 〈server) 和 客户 





端 《〈client) 两 个 映 份 : 从 服务 器 可 以 回 主 服务 露 发 送 命 令 请 求 ， 而 主 
服务 器 则 会 癌 从 服务 器 返回 命令 回复 ， 如 图 15-15 所 示 。 


发 送 命令 请 求 从 服务 器 


主 服 务 器 
29001637 | EA | 127.0.0.112345 


图 15-15 ” 主 从 服务 器 之 间 的 关系 











因为 复制 工作 接 下 来 的 几 个 步骤 都 会 以 从 服务 器 同 主 服务 器 发 送 命 
1 所 以 理解 “从 服务 器 是 主 服务 器 的 客户 端 ” 这 一 操 
常 重 要 。 


15.6.3 ”步骤 3: 发 送 PING 命 令 


从 服务 器 成 为 主 服 务 器 的 客户 端 之 后 ， 做 的 第 一 件 事 就 是 向 主 服务 
器 发 送 一 个 PING 命 令 ， 如 图 15-16 所 示 。 


主 服务 器 PING 从 服务 器 


127.0.0.1:6379 127.0.0.1:12345 





图 15-16 ”从 服务 器 问 主 服务 器 及 送 PING 

这 个 PING 命 令 有 两 个 作用 : 

:虽然 主 从 服务 器 成 功 建立 起 了 套 接 字 连接 ， 但 双方 并 未 使 用 该 套 
接 字 进行 过 任何 通信 ， 通 过 发 送 PING 命 令 可 以 检查 套 接 字 的 读 写 状态 
是 否 正 常 。 

:因为 复制 工作 接 下 来 的 几 个 步 又 都 必须 在 主 服务 器 可 以 正常 处 理 
命令 请 求 的 状态 下 才能 进行 ， 通 过 发 送 PING 命 令 可 以 检查 主 服务 器 能 
否 正常 处 理 命令 请 求 。 

从 服务 器 在 发 送 PING 命 令 之 后 将 遇 到 以 下 三 种 情况 的 其 中 一 种 : 











“如 果 主 服务 器 同 从 服务 器 返回 了 一 个 命令 回复 ， 但 从 服务 器 却 不 
能 在 规定 的 时 限 (timeout〉 内 读 取出 命令 回复 的 内 容 ， 那 么 表示 主 从 服 
务 吉 之 间 的 网 络 连接 状态 不 佳 ， 不 能 继续 执行 复制 工作 的 后 续 步 又 。 当 
出 现 这 种 情况 时 ， 从 服务 器 断 开 并 重新 创建 连同 主 服务 器 的 套 接 字 。 


:如 果 主 服务 器 同 从 服务 器 返回 一 个 错误 ， 那 么 表示 主 服 务 器 暂时 
没 办 法 处 理 从 服务 需 的 命令 请 求 ， 不 能 继续 执行 复制 工作 的 后 续 步 又 。 
当 出 现 这 种 情况 时 ， 从 服务 器 断 开 并 重新 创建 连同 主 服务 右 的 套 接 字 。 
比如 说 ， 如 果 主 服务 堪 正 在 处 理 一 个 超时 运行 的 脚本 ， 那 么 当 从 服务 堪 
问 主 服务 器 发 送 PING 命 令 时 ， 从 服务 器 将 收 到 主 服务 器 返回 的 BUSY 
Redisis busy running a script.You can only call SCRIPT KILL or 
SHUTDOWN NOSAVE. 错 误 。 


如果 从 服务 器 读 取 到 "PONG" 回 复 ， 那 么 表示 主 从 服务 器 之 间 的 网 
络 连接 状态 正常 ， 并 且 主 服务 属 可 以 正 向 处 理 从 服务 圳 〈 客 户 跨 ) 发 送 
的 命令 请 求 ， 在 这 种 情况 下 ， 从 服务 咒 可 以 继续 执行 复制 工作 的 下 个 步 


又 。 


流程 图 15-17 总 结 了 从 服务 器 在 发 送 PING 命 令 时 可 能 过 到 的 情况 ， 
以 及 各 个 情况 的 处 理 方式 。 


从 服务 器 回 主 服务 器 发 送 PING 命令 







主 服务 器 返回 "PONG" ? 


读 取 PING 命令 的 回复 超时 


保 私 执行 下 “个 步 桑 | | 或 者 主 服务 器 返回 一 个 错误 


图 15-17 “从 服务 器 在 发 送 PING 命 令 时 可 能 遇 上 的 情况 
15.6.4 ”步骤 4， 身 份 验证 


从 服务 器 在 收 到 主 服 务 器 返回 的 "PONG" 回 复 之 后 ， 下 一 步 要 做 的 
就 是 决定 是 否 进 行 刁 份 验证 : 


.如 果 从 服务 器 设置 了 masterauth 选 项 ， 那 么 进行 身份 验证 。 
.如 果 从 服务 器 没有 设置 masterauth 选 项 ， 那 么 不 进行 身份 验证 。 


在 需要 进行 身份 验证 的 情况 下 ， 从 服务 器 将 同 主 服务 器 发 送 一 条 
AUTH 人 命令， 命令 的 参数 为 从 服务 器 masterauth 选 项 的 值 。 


举 个 例子 ， 如 果 从 服务 器 masterauth 选 项 的 值 为 10086， 那 么 从 服务 
器 将 向 主 服 务 器 发 送 命令 AUTH 10086， 如 图 15-18 所 示 。 


主 服 务 需 AUIH 10086 从 服务 器 


IZ1.0.0.1:06319 127.0.0.1:12345 





图 15-18 ”从 服务 器 问 主 服务 器 验证 喘 份 
从 服务 器 在 号 份 验证 阶段 可 能 遇 到 的 情况 有 以 下 几 种 : 


:如果 主 服 务 器 没有 设置 requirepass 选 项 ， 并 且 从 服务 器 也 没有 设置 
masterauth 选 项 ， 那 么 主 服务 器 将 继续 执行 从 服务 器 发 送 的 命令 ， 复 制 
工作 可 以 继续 进行 。 


如果 从 服务 器 通过 AUTH 命 令 发 送 的 密码 和 主 服务 器 requirepass 选 
项 所 设置 的 密码 相同 ， 那 么 主 服 务 器 将 继续 执行 从 服务 器 发 送 的 命令 ， 
复制 工作 可 以 继续 进行 。 与 此 相反 ， 如 果 主 从 服务 器 设置 的 密码 不 相 
同 ， 那 么 主 服 务 器 将 返回 一 个 invalid password 错 误 。 


.如 果 主 服务 器 设置 了 requirepass 选 项 ， 但 从 服务 器 却 没 有 设置 
masterauth 选 项 ， 那 么 主 服 务 器 将 返回 一 个 NOAUTH 错 误 。 男 一 方面 ， 
如 果 主 服务 器 没有 设置 requirepass 选 项 ， 但 从 服务 器 却 设置 了 masterauth 
选项 ， 那 么 主 服务 器 将 返回 一 个 no password is set 错 误 。 





所 有 错误 情况 都 会 令 从 服务 器 中 止 目前 的 复制 工作 ， 并 从 创建 套 接 
J 直到 里 份 验证 通过 ， 或 者 从 服务 器 放弃 执行 复制 


流程 图 15-19 总 结 了 从 服务 嚣 在 里 份 验证 阶段 可 能 遇 到 的 情况 ， 以 
及 各 个 情况 的 处 理 方式 。 





进入 身份 验证 阶段 


主 从 服务 器 都 没有 设置 密码 





否 ， 
进行 身份 验证 


主 从 服务 器 设置 了 不 同 的 密友 
或 者 
主 服务 器 设置 了 密码 
但 从 服务 器 没有 设置 密友 
或 者 
主 服务 器 没有 设置 密友 
但 从 服务 器 设置 了 密码 





图 15-19 ”从 服务 器 在 身份 验证 阶段 可 能 过 上 的 情况 
15.6.5 ”步骤 5: 发 送 端口 信息 


在 映 份 验证 步 又 之 后 ， 从 服务 占 将 执行 命令 REPLCONF listening- 
port <port-number>， 同 主 服 务 嚣 发送 从 服务 器 的 监听 端口 号 。 


例如 在 我 们 的 例子 中 ， 从 服务 器 的 监听 端口 为 122345， 那 么 从 服务 
器 将 向 主 服务 器 发 送 命令 REPLCONF listening-port 12345， 如 图 15-20 所 
人 外。 


~ 
pp 


主 服务 器 REPLCONF listening-port 12345 从 服务 器 


127.0.0.1:6379 127.0.0.1:12345 
图 15-20 ”从 服务 占 问 主 服 务 占 发 送 监 昕 端口 


主 服务 器 在 接收 到 这 个 命令 之 后 ， 会 将 端口 号 记录 在 从 服务 器 所 对 
应 的 客户 端 状 态 的 slave_listening_port 属 性 中 : 











typedef struct redisClient { 
Rs 


// 
从 服务 器 的 监听 端口 号 
int slave_listening_ port; 


} redisclient; 





图 15-21 展 示 了 客户 端 状态 设置 slave_listening_port 属 性 之 后 的 样 


redisClient 


子 


slave listening port 
12345 


图 15-21 用 客户 闻 状 态 记录 从 服务 右 的 监听 端口 








slave_listening_port 属 性 目前 唯一 的 作用 就 是 在 主 服 务 器 执行 INFO 
replication 命 令 时 打印 出 从 服务 器 的 端口 号。 


以 下 是 客户 端 同 例子 中 的 主 服务 器 发 送 INFO replication 命 令 时 得 到 
的 回复 ， 其 中 slave0 行 的 port 域 显示 的 束 是 从 服务 器 所 对 应 客户 靖 状 态 的 
slave_listening_port 属 性 的 值 : 





127.0.0.1:6379> INFO replication 
Replication 
role:master 


connected_slaves:1 
slaveQ:ip=127.0.0.1,port=12345, status=online, offset=1289, 1ag=1 
ast set:1289 


_ 区 :104857 
repl_backlog first_byte_offset:2 
repl_backlog_histlen:1288 


15.6.6 ”步骤 6: 同步 


在 这 一 步 ， 从 服务 器 将 同 主 服务 器 发 送 PSYNC 命 令 ， 执 行 同步 操 
作 ， 并 将 目 己 的 数据 库 更 新 至 主 服 务 器 数据 库 当 前 所 处 的 状态 。 


值得 一 提 的 是 ， 在 同步 操作 执行 之 前 ， 只 有 从 服务 器 是 主 服务 器 的 
客 尸 端 ， 但 是 在 执行 同步 操作 之 后 ， 主 服务 器 也 会 成 为 从 服务 器 的 客户 


端 : 





-如 条 PSYNC 命 令 执 行 的 是 完整 重 同步 操作 ， 那 么 主 服务 器 需要 成 
、。 才能 将 保存 在 缓冲 区 里 面 的 写 命令 发 送 给 从 服务 
硕 执 行 。 


如果 PSYNC 命 令 执 行 的 是 部 分 重 同步 操作 ， 那 么 主 服 务 占 需要 成 
为 从 服务 器 的 客户 端 ， 才 能 同 从 服务 器 发 送 保存 在 复制 积压 缓冲 区 里 面 


的 写 命令 。 


因此 ， 在 同步 操作 执行 之 后 ， 主 从 服务 器 双方 都 是 对 方 的 客户 端 ， 
它们 可 以 互相 同 对 方 发 送 命令 请 求 ， 或 者 互相 同 对 方 返 回 命令 回复 ， 如 
图 15-22 所 示 。 


正 因 为 主 服务 器 成 为 了 从 服务 器 的 客户 端 ， 所 以 主 服务 器 才 可 以 通 


过 友 送 写 命令 来 改变 从 服务 器 的 数据 库 状 态 ， 不 仅 同步 操作 需要 用 到 这 
一 点 ， 这 也 是 主 服 务 器 对 从 服务 器 执行 命令 传播 操作 的 基础 。 








发 送 命令 请 求 / 
主 服 务 咒 返回 命令 回复 从 服务 器 


127.0.0.1:637 返回 命令 回复 127.0.0.1:1234 





图 15-22 ” 主 从 服务 堪 之 间 互 为 客户 端 
15.6.7 “步骤 7: 命令 传播 
当 完 成 了 同步 之 后 ， 主 从 服务 器 就 会 进入 命令 传播 阶段 ， 这 时 主 服 
务 器 只 要 一 直 将 自己 执行 的 写 命令 发 送 给 从 服务 器 ， 而 从 服务 器 只 要 一 
0 就 可 以 保证 主 从 服务 器 一 直 保 持 
一 多 
以 上 就 是 Redis 2.8 或 以 上 版 本 的 复制 功能 的 实现 步 又 。 











15.7 心跳 检测 


本 令 传播 阶段 ， 从 服务 器 默认 会 以 每 秒 一 次 的 频率 ， 问 主 服 务 句 
命令 : 





REPLCONF ACK <replication offset> 





其 中 replication_offset 是 从 服务 器 当前 的 复制 偏 移 量 

发 送 REPLCONF ACK 命 令 对 于 主 从 服务 器 有 三 个 作用 : 

-检测 主 从 服务 器 的 网 络 连接 状态 。 

.辅助 实现 min-slaves 选 项 。 

-检测 命令 丢失。 

以 下 三 个 小 节 将 分 别 介绍 这 三 个 作用 。 
15.7.1 检测 主 从 服务 器 的 网 络 连接 状态 

主 从 服务 器 可 以 通过 发 送 和 接收 REPLCONF ACK 命 令 来 检查 两 者 
之 间 的 网 络 连接 是 否 正常 : 如 果 主 服务 器 超过 一 秒 钟 没有 收 到 从 服务 器 


发 来 的 REPLCONF ACK 命 令 ， 那 么 主 服 务 器 就 知道 主 从 服务 器 之 间 的 
连接 出 现 问 题 了 。 


通过 向 主 服务 器 发 送 INFO replication 命 令 ， 在 列 出 的 从 服务 器 列表 
的 lag 一 栏 中 ， 我 们 可 以 看 到 相应 从 服务 器 最 后 一 次 癌 主 服务 器 发 送 
REPLCONF ACK 命 令 距 离 现 在 过 了 多 少 秒 : 





ts 0.0. 19 INFO replication 
Replic 


ro. er 

connected_slaves 

slave0:ip=127.0.0.1,port=12345, state=online, offset=211,1ag=© # 
刚刚 发 送 过 EPL LONE ACK 


命令 
slave1:ip=127.0.0.1,port=56789, state=online, offset=197, 1ag=15 # 15 
DREPLCONF ACK 


master_repl_offs et: 211 


sd 
repl | backlog_first_byte_offset:2 


repl_backlog_histlen:210 








在 一 般 情况 下 ，lag 的 值 应 该 在 0 秒 或 者 1 秒 之 间 跳 动 ， 如 果 超 过 1 秒 
的 话 ， 那 么 说 明 主 从 服务 器 之 间 的 连接 出 现 了 故障 。 


15.7.2 ”辅助 实现 min-slaves 配 置 选 项 

Redis 的 min-slaves-to-write 和 min-slaves-max-lag 两 个 选项 可 以 防止 主 
服务 器 在 不 安全 的 情况 下 执行 写 命令 。 

举 个 例子 ， 如 果 我 们 回 主 服务 器 提供 以 下 设置 ; 


min-slaves-to-write 3 
min-slaves-max-lag 10 


那么 在 从 服务 器 的 数量 少 于 3 个 ， 或 者 三 个 从 服务 器 的 延迟 〈lag) 
值 都 大 于 或 等 于 10 秒 时 ， 主 服务 器 将 拒绝 执行 号 命令 ， 这 里 的 延迟 值 就 
是 上 面 提 到 的 INFO replication 命 令 的 lag 值 。 


15.7.3 ”检测 命令 丢失 


如 果 因 为 网 络 故 障 ， 主 服务 器 传播 给 从 服务 器 的 写 命令 在 半路 于 
失 ， 那 么 当 从 服务 器 向 主 服 务 器 发 送 REPLCONF ACK 命 令 时 ， 主 服务 
器 将 发 觉 从 服务 器 当前 的 复制 偏 移 量 少 于 自己 的 复制 偏 移 量 ， 然 后 主 服 
务 器 就 会 根据 从 服务 器 提交 的 复制 偏 移 量 ， 在 复制 积压 缓冲 区 里 面 找到 
从 服务 器 缺少 的 数据 ， 并 将 这 些 数据 重新 发 送 给 从 服务 器 。 


举 个 例子 ， 假 设 有 两 个 处 于 一 致 状态 的 主 从 服务 器 ， 它 们 的 复制 偏 
移 量 都 是 200， 如 图 15-23 所 示 。 

















主 服务 大 从 服务 器 
复制 但 移 量 为 200 复制 偏 移 量 为 200 


图 15-23 ” 主 从 服务 器 处 于 一 致 状态 


如 果 这 时 主 服务 器 执行 了 命令 SET key value( 协 议 格 式 的 长 度 为 33 
字 节 ) ， 将 自己 的 复制 偏 移 量 更 新 到 了 233， 并 壬 试 回 从 服务 器 传播 命 





令 SET key value， 但 这 条 命令 却 因为 网 络 故 障 而 在 传播 的 途中 丢失 ， 那 
么 主 从 服务 器 之 间 的 复制 偏 移 量 就 会 出 现 不 一 致 ， 主 服务 器 的 复制 仿 移 
量 会 被 更 新 为 233， 而 从 服务 器 的 复制 仿 移 量 仍 然 为 200， 如 图 15-24 所 

全 。 








图 15-24 主 从 服务 器 处 于 不 一 致 状态 


在 这 之 后 ， 当 从 服务 器 癌 主 服务 器 发 送 REPLCONF ACK 命 令 的 时 
候 ， 主 服务 器 会 察觉 从 服务 器 的 复制 偏 移 量 依然 为 200， 而 自己 的 复制 








偏 移 量 为 233， 这 说 明 复 制 积压 绥 冲 区 里 面 复制 偏 移 量 为 201 什 233 的 数 
据 《〈 也 即 是 命令 SET key value) 在 传播 过 程 中 丢失 了 ， 于 是 主 服 务 器 会 
再 次 向 从 服务 器 传播 命令 SET key value， 从 服务 器 通过 接收 并 执行 这 个 
命令 可 以 将 上 自己 更 新 至 主 服务 器 当前 所 处 的 状态 ， 如 图 15-25 所 示 。 





注意 ， 主 服务 器 向 从 服务 器 补 及 缺失 数据 这 一 操作 的 原理 和 部 分 重 
同步 操作 的 原理 非 第 相似 ， 这 两 个 操作 的 区 别 在 于 ， 补 肥 缺 失 数 据 操作 
在 主 从 服务 器 没有 断 线 的 情况 下 执行 ， 而 部 分 重 同步 操作 则 在 主 从 服务 
虱 断 线 并 重 连 之 后 执行 。 





Redis 2.8 版 本 以 前 的 命令 丢失 





REPLCONF ACK 命 令 和 复制 积压 缓冲 区 都 是 Redis 2.8 版 本 新 
增 的 ， 在 Redis 2.8 版 本 以 前 ， 即 使 命令 在 传播 过 程 中 丢失 ， 主 服务 
器 和 从 服务 器 都 不 会 注意 到 ， 主 服务 器 更 不 会 向 从 服务 器 补 发 丢失 
的 数据 ， 所 以 为 了 保证 复制 时 主 从 服务 器 的 数据 一 致 性 ， 最 好 使 用 
2.8 或 以 上 版 本 的 Redis。 


15.8 重点 回顾 


Redis ”2.8 以 前 的 复制 功能 不 能 高 效 地 处 理 断 线 后 重复 制 情况 ， 但 
Redis 2.8 新 添加 的 部 分 重 同步 功能 可 以 解决 这 个 问题 。 








部 分 重 同步 通过 复制 偏 移 量 、 复 制 积 压 缓冲 区 、 服 务 器 运行 ID 三 
个 部 分 来 实现 。 


:在 复制 操作 刚 开始 的 时 候 ， 从 服务 器 会 成 为 主 服务 器 的 客户 新， 
并 通过 回 主 服务 需 发 送 命令 请 求 来 执行 复制 步骤 ， 而 在 复制 操作 的 后 
期 ， 主 从 服务 器 会 互相 成 为 对 方 的 客户 端 。 


` 主 服务 器 通过 同 从 服务 器 传播 命令 来 更 新 从 服务 器 的 状态 ， 保 持 
主 从 服务 露 一 致 ， 而 从 服务 器 则 通过 回 主 服务 器 发 送 命令 来 进行 心跳 检 
测 ， 以 及 命令 丢失 检测 。 





第 16 章 ”Sentinel 


Sentinel( 哨 岗 、 哨 兵 ) 是 Redis 的 高 可 用 性 (high availability) 解决 
方案 : 由 一 个 或 多 个 Sentinel 实 例 (instance) 组 成 的 Sentinel 系 统 
(system) 可 以 监视 任意 多 个 主 服务 器 ， 以 及 这 些 主 服 务 器 属 下 的 所 有 
从 服务 器 ， 并 在 被 监视 的 主 服务 器 进 入 下 线 状 态 时 ， 上 自动 将 下 线 主 服务 
器 属 下 的 某 个 从 服务 器 升级 为 新 的 主 服务 器 ， 然 后 由 新 的 主 服务 器 代替 
己 下 线 的 主 服务 器 继续 处 理 命令 请 求 。 


Sentinel 系 统 





图 16-1 服务 器 与 Sentinel 系 统 
图 16-1 展 示 了 一 个 Sentinel 系 统 监视 服务 器 的 例子 ， 其 中 : 
:用 双环 图 案 表示 的 是 当前 的 主 服 务 右 server1l。 


.用 单 环 图 案 表示 的 是 主 服 务 器 的 三 个 从 服务 器 server2、server3 以 


及 server4。 


“server2、server3、Sserver4 三 个 从 服务 右 正 在 复制 主 服 务 嚣 server1， 
而 Sentinel 系 统 则 在 监视 所 有 四 个 服务 器 。 


假设 这 时 ， 主 服务 器 server1 进 入 下 线 状 态 ， 那 么 从 服务 器 server2、 


server3、Sserver4 对 主 服务 器 的 复制 操作 将 被 中 止 ， 并 且 Sentinel 系 统 会 察 
觉 到 server1l 已 下 线 ， 如 图 16-2 所 示 “《〈 下 线 的 服务 器 用 虚线 表示 ) 。 


Sentinel 系 统 


”察觉 主 服务 器 已 下 线 
i “Ss 
7/ vv 
[ud 人 、 
SS | 、 
Severl ji 监视 监视 监视 
\\ 77 


《复制 中 目 ， 复制 中 止 、 中 止 


图 16-2 主 服务 器 下 线 


当 server1 的 下 线 时 长 超过 用 户 设 定 的 下 线 时 长 上 限时 ，Sentinel 系 
统 束 会 对 server1l 执 行 故障 转移 操作 : 


.首先 ，Sentinel 系 统 会 挑选 server1 属 下 的 其 中 一 个 从 服务 器 ， 并 将 
这 个 被 选中 的 从 服务 器 升级 为 新 的 主 服务 器 。 


:之 后 ， Sentinel 系 统 会 同 serverl 属 下 的 所 有 从 服务 器 发 送 新 的 复制 
旨 令 ， 让 它们 成 为 新 的 主 服务 器 的 从 服务 器 ， 当 所 有 从 服务 器 都 开始 复 


制 新 的 主 服 务 器 时 ， 故 障 转移 操作 执行 完毕 。 


另外，Sentinel 还 会 继续 监视 已 下 线 的 server1， 并 在 它 重 新 上 线 
时 ， 将 它 设置 为 新 的 主 服务 器 的 从 服务 器 。 


举 个 例子 ， 图 16-3 展 示 了 Sentinel 系 统 将 server2 升 级 为 新 的 主 服务 
器 ， 并 让 服务 器 server3 和 server4 成 为 server2 的 从 服务 器 的 过 程 。 


之 后 ， 如 果 serverl 重 新 上 线 的 话 ， 它 将 被 Sentinel 系 统 降级 为 server2 
的 从 服务 器 ， 如 图 16-4 所 示 。 


Sentinel 系 统 






设置 为 


server2 


图 16-3 ”故障 转移 


Sentinel 系 统 


降级 为 
Server2 


的 从 服务 器 





图 16-4 原来 的 主 服务 需 被 降级 为 从 服务 器 


本 章 首 先 会 对 Sentinel 的 初始 化 过 程 进 行 介绍 ， 并 说 明 Sentinel 和 一 
般 Redis 服 务 器 的 区 别 。 


在 此 之 后 ， 本 章 将 对 Sentinel 监 视 服 务 器 的 方法 和 原理 进行 介绍 ， 
说 明 Sentinel 是 如 何 判 断 一 个 服务 器 是 否 在 线 的 。 


最 后 ， 本 章 将 介绍 Sentinel 系 统 对 主 服务 器 执行 故障 转移 的 整个 过 





16.1 局 动 并 初始 化 Sentinel 
启动 一 个 Sentinel 可 以 使 用 命令 : 





$ redis-sentinel /path/to/your/sentinel.conf 


或 者 命令 : 


$ redis-server /path/to/your/sentinel.conf --sentinel 





这 两 个 命令 的 效果 完全 相同 。 

当 一 个 Sentinel 司 动 时 ， 它 需要 执行 以 下 步骤 : 

1) 初始 化 服务 器 。 

2) 将 普通 Redis 服 务 器 使 用 的 代码 蔡 换 成 Sentinel 专 用 代码 。 

3) 初始 化 Sentinel 状 态 。 

4) 根据 给 定 的 配置 文件 ， 初 始 化 Sentinel 的 监视 主 服 务 器 列表 。 

5) 创建 连 向 主 服务 器 的 网 络 连 接 。 

本 节 接 下 来 的 内 容 将 分 别 对 这 些 步 又 进行 介绍 。 
16.1.1 初始 化 服务 名 

首先 ， 因 为 Sentinel 本 质 上 只 是 一 个 运行 在 特殊 模式 下 的 Redis 服 务 
侨 ， 所 以 局 动 Sentinel 的 第 一 步 ， 就 是 初始 化 一 个 普通 的 Redis 服 务 井 
县 体 的 步骤 和 第 14 章 介绍 的 类 似 。 

不 过 ， 因 为 Sentinel 执 行 的 工作 和 普通 Redis 服 务 器 执行 的 工作 不 


所 以 Sentinel 的 初始 化 过 程 和 普通 Redis 服 务 器 的 初始 化 过 程 并 不 完 
日 同 。 





例如 ， 普 通 服 务 器 在 初始 化 时 会 通过 载 入 RDB 文 件 或 者 AOF 文 件 来 
还 原 数 据 库 状 态 ， 但 是 因为 Sentinel 并 不 使 用 数据 库 ， 所 以 初始 化 
Sentinel 时 就 不 会 载 入 RDB 文 件 或 者 AOF 文 件 。 


表 16-1 展 示 了 Redis 服 务 器 在 Sentinel 模 式 下 运行 时 ， 服 务 器 各 个 主 
要 功能 的 使 用 情况 。 


表 16-1 _ Sentinel 模式 下 Redis 服 务 器 主要 功能 的 使 用 情况 
功 能 使 用 情况 
数据 库 和 键 什 对 方面 的 命令 ， 比 如 SET、 


DEL, FLUSHDB 民有 
事务 命令 ， 比 如 MULTT 和 WATCH 不 使 用 
脚本 命令 ， 比 如 EV4L 不 使 用 
RDB 持 久 化 命令 ,比如 8S4VE 和 BGS4VE | 不 使 用 
AOF 持久 化 命令 ， 比 如 BGREWRITE4OF | 不 使 用 
复制 命令 ， 比 如 SLAVEOF Sentine| 内 部 可 以 使 用 ， 但 客户 冉 不 可 以 使 用 


SUBSCRIBE PSUBSCRIBE UNSUBSCRIBE PUNSUBSCRIBE 
四 个 命令 在 Sentine| 内 部 和 客户 端 都 可 以 使 用 ， 但 PUBLISH 命 今 只 
能 在 Sentinel 内 部 使 用 
文件 事件 处 理 器 ( 负责 发 送 命令 请 求 、 处 理 | ”Sentinel 内 部 使 用 ， 但 关联 的 文件 事件 处 理 器 和 普通 Redis 服务 
合 今 回复 ) 器 不 同 
Sentinel 内 部 使 用 ， 时 间 事件 的 处 理 器 仍然 是 serverCron 隐 


数 ， serverCron 骨 数 A 阔 用 3 sentinel,c/sentinelTimer 


汕 数 ， 后 者 包含 了 Sentinel 要 执行 的 所 有 操作 


发 布 与 订阅 命令 ， 比 如 PUBLISH 和 
SUBSCRIBE 


时 间 事件 处 理 器 ( 负责 执行 serverCron 
隐 数 ) 


16.1.2 ”使 用 Sentinel 专 用 代码 


启动 Sentinel 的 第 二 个 步 又 就 是 将 一 部 分 普通 Redis 服 务 器 使 用 的 代 
码 禁 秩 成 Sentinel 志 用 代码 。 比 如 说 ， 普 通 Redis 服 务 器 使 用 
redis.h/REDIS_SERVERPORT 常 量 的 值 作为 服务 器 端口 : 








#define REDIS_ SERVERPORT 6379 





而 Sentinel 则 使 用 sentinel.c/REDIS_SENTINEL PORT 常 量 的 值 作为 
服务 器 端口 : 





#define REDIS_SENTINEL_PORT 26379 





除 此 之 外 ， 普 通 Redis 服 务 器 使 用 redis.c/redisCommandTable 作 为 服 
务 器 的 命令 表 : 





struct redisCommand rediscommandTable[] = ={ 
{"get",getCommand,2,"r" 10, NUUE :0 
{"set",setCommand, -3," Wm" ,0,noPpreloadGetKeys,1,1,1,0,0}, 
人 setnx" , setnxCommand, 3 wwmf 0,noPpreloadGetKeys,1,1,1,0,0}, 


script" ,scriptCommand, -2,"ras",0Q,NULL,o9,0,09,0,0}, 
{"time" ,timecommand ， 二 人 ,NULL, 8, 0, 0, 0, 0 

bitopf ,bitopCommand， -4, nym" ;1Q/,NULL, 2, -1,1,06,98}, 
bitcountn ,bitcountCommand, -2, ne NULL' 1 1, 1, 9, 0} 





而 Sentinel 则 使 用 sentinel.c/sentinelcmds 作 为 服务 器 的 命令 表 ， 并 且 
其 中 的 INFO 命 令 会 使 用 Sentinel 模 式 下 的 专用 实现 
enti c/sentinelInfoCommand 函 数 ， 而 不 是 普通 Redis 服 务 器 使 用 的 实 
现 redis.cinfoCommand 函 数 : 





Struct redisCommand sentinelcmds[] = { 
{"ping",pingCommand,1,"",0, NULL, 6, 0, 6, 6, 6}, 
{"sentinel", sentinelCommand, -2," 19， NULL, 0, 90, 9,0,0}, 
{"subscribe", subscribeCommand, -2, 79， NULL, 6, 9, 8, 9, 8}, 
让 unsubscriben ,unsubscribeCommand, -1 ',0,NULL, 90, 909,090,0,0}, 
{"psubscribe" , psubscribeCcommand, -2, ',0, NULL, 0, 0, 0, 0, 04, 
E punsubscribe" , punsubscribeCommand, -1 ,0,NULL, 9, 90,9,0,0}, 
{"info" , sentinelInfoCommand, -1,"",0, NULL, 0, 0,0,0, 0} 





sentinelcemds 命 令 表 也 解释 了 为 什么 在 Sentinel 模 式 下 ，Redis 服 务 器 
不 能 执行 诸如 SET、DBSIZE、EVAL 等 等 这 些 命令 ， 因 为 服务 器 根本 没 


有 在 命令 表 中 载 入 这 些 命令 。PING、SENTINEL、INFO、 
SUBSCRIBE、UNSUBSCRIBE、PSUBSCRIBE 和 PUNSUBSCRIBE 这 七 
个 命令 就 是 客户 端 可 以 对 Sentinel 执 行 的 全 部 命令 了 。 


16.1.3 ”初始 化 Sentinel 状 态 


在 应 用 了 Sentinel 的 专用 代码 之 后 ， 接 下 来 ， 服 务 器 会 初始 化 一 个 
sentinel.c/sentinelState 结 构 ( 后 面 简称 “Sentinel 状 态 ”) ， 这 个 结构 保存 
了 服务 器 中 所 有 和 Sentinel 功 能 有 关 的 状态 (服务 器 的 一 般 状 态 仍然 由 
redis.h/redisServer 结 构 保 存 〉: 





struct SentinelState { 
// 











当前 纪元 ， 用 于 实现 故障 转移 
uint64_t current_epoch; 








保存 了 所 有 被 这 个 sentinel 
人 有 务 器 


字 册 的 健 是 主 服务 器 的 名 字 
// 
字典 的 值 则 是 一 个 指向 sentinelRedisInstance 
结构 的 指针 
dict *masters; 
ji 
是 否 进 入 了 TILT 
模式 ? 
in 帮主 二 全 


目前 正在 执行 的 脚本 的 数量 
int running_scripts; 
// 

进入 TILT 

模式 的 时 间 
mstime_t tilt_start_time; 
i 

最 后 一 次 执行 时 间 处 理 器 的 时 间 
mstime_t previous time; 
ee 


区 和 -得 售 了 所 有 人 
list *scripts_que 
} sentinel; 





16.1.4 ”初始 化 Sentinel 状 态 的 masters 属 性 


Sentinel 状 态 中 的 masters 字 — 典 记录 了 所 有 被 Sentinel 监 视 的 主 服 务 器 
的 相关 信息 ， 其 中 : 


.字典 的 键 是 被 监视 主 服务 器 的 名 字 。 
字典 的 值 则 是 被 监视 主 服务 器 对 应 的 


sentinel.c/sentinelRedisInstance 结 构 。 


每 个 sentinelRedisInstance 结 构 〈 后 面 简称 “实例 结构 ”) 代表 一 个 被 
Sentinel 监 视 的 Redis 服 务 器 实例 〈instance) ， 这 个 实例 可 以 是 主 服务 


峰 、 从 服务 器 ， 或 者 另外 一 个 Sentinel。 


实例 结构 包含 的 属性 非常 多 ， 以 下 代码 展示 了 实例 结构 在 表示 主 服 
务 器 时 使 用 的 其 中 一 部 分 属性 ， 本 间接 下 来 将 逐步 对 实例 结构 中 的 各 个 
属性 进行 介绍 : 











typedef struct sentinelRedisInstance { 
// 





标识 值 ， 记 录 了 实例 的 类 型 ， 以 及 该 实例 的 当前 状态 
int flags; 


下 天 
实例 的 名 字 
// 
下 服 务 宫 册 由 用 户 在 配置 文件 中 设置 
从 服务 名 以 及 sentinel 
的 名 字 由 Sentinel 
旧 碟 次 生 
i 


， 例 如 "127.0.0.1:26379" 
char *name; 























// 
实例 的 运行 ID 
char *runid; 

















/ 
配置 纪元 ， 用 于 实现 故障 转移 
uint64_t config_epoch; 





// 
实例 的 地 址 

sentinelAddr *addr; 

// SENTINEL down- after- milliseconds 
交规 六 军 肌 值 


0 少 毫秒 之 后 才 会 被 判断 为 主观 下 线 (subjectively down 
mstime_t down_after_period; 
// SENTINEL monitor <master-name> <IP> <port> <quorum> 
选项 中 的 quorum 
参数 


0 
和 仙 各 观 上 引 (objectively down 
) 所 需 的 支持 票数 量 








人 quorum 
了 SENTINEL parallel-syncs <master-name> <number> 
选项 的 值 


A 
在 执行 故障 转移 操作 时 ， 中 内 由 尖 漳 的 才 服 务 而 这 税则 关 交 从 来 入 症 涛 时 
int parallel sy 

// SENTINEL Fe timeout <master-name> <ms> 
选项 的 值 


刷新 故障 迁移 状态 的 最 大 时 限 
mstime_t failover_timeout; 








Rs 
} sentinelRedisInstance; 





sentinelRedisInstance.addr 属 性 是 一 个 指 0 c/sentinelAddr 结 构 


的 指针 ， 这 个 结构 保存 着 实例 的 JP 地址 和 端 





typedef struct sentinelAddr { 


int port; 
} sentinelAddr; 





对 Sentinel 状 态 的 初始 化 将 引发 对 masters 字 典 的 初始 化 ， 而 masters 
典 的 初始 化 是 根据 被 载 入 的 Sentinel 配 置 文件 来 进行 的 。 


0 如 果 用 户 在 启动 Sentinel 时 ， 指 定 了 包含 以 下 内 容 的 配 
文件 : 





一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

# master1 configure # 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

sentinel monitor master1 127.0.0.1 6379 2 
sentinel down-after-milliseconds master1 30000 
sentinel parallel-syncs master1 1 

sentinel failover-timeout master1 900000 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 

# master2 configure # 

一 一 

sentinel monitor master2 127.0.0.1 12345 5 
sentinel down-after-milliseconds master2 50000 
sentinel parallel-syncs master2 5 

sentinel failover-timeout master2 450000 





那么 Sentinel 将 为 主 服 务 器 master1 创 建 如 图 16-5 所 示 的 实例 结构 ， 
并 为 主 服务 右 master2 创 建 如 图 16-6 所 示 的 实例 结构 ， 而 这 两 个 实例 结构 
又 会 被 保存 到 Sentinel 状 态 的 masters 字 典 中 ， 如 图 16-7 所 示 。 


sentinelRedisIinstance 
flags 
SRI MASTER 
name 
"masterl" 


runid 
"ee07959afc9d061233191c0f5bfe29580dfad0f4" 


config epoch 


addr sentinelAddr 


down after period ip 
30000 "2 OL" 


quorum 


parallel syncs 


failover timeout 
900000 





图 16-5 ”master1 的 实例 结构 


sentinelRedisInstance 


flags 
SRI MASTER 
name 


"master2" 


runid 
"a68408b775438a5aqee54a638b3a6f3461920158an 


config epoch 
0 


down after period 
Wd nd 
quorum 
3 
parallel syncs 
S 


failover timeout 


450000 


图 16-6 ”master2 的 实例 结构 
















sentinelRedisInstance 


nName 


"masterl" 





"master2" 


图 16-7 Sentinel 状态 以 及 masters 字 — 典 
16.1.5 ”创建 连同 主 服 务 器 的 网 络 连 接 
初始 化 Sentinel 的 最 后 一 步 是 创建 连同 被 监视 主 服务 器 的 网 络 连 
接 ，Sentinel 将 成 为 主 服 务 占 的 客户 问 ， 它 可 以 同 主 服务 器 发 送 命 令 ， 
并 从 命令 回复 中 获取 相关 的 信息 。 


对 于 每 个 被 Sentinel 监 视 的 主 服 务 器 来 说 ，Sentinel 会 创建 两 个 连同 
主 服 务 器 的 异步 网 络 连 接 : 


.一 个 是 命令 连接 ， 这 个 连接 专门 用 于 向 主 服务 器 发 送 命令 ， 并 接 
收 命令 回复 。 


- 忆 一 个 是 订阅 连接 ， 这 个 连接 专门 用 于 订阅 主 服务 器 的 





_ Sentinel :hello 频 道 。 


为 什么 有 了 两 个 连接 ? 


在 Redis 目 前 的 发 布 与 订阅 功能 中 ， 被 发 送 的 信息 都 不 会 保存 
在 Redis 服 务 器 里 面 ， 如 果 在 信息 发 送 时 ， 想 要 接收 信息 的 客户 端 
不 在 线 或 者 断 线 ， 那 么 这 个 客户 端 就 会 于 失 这 条 信息 。 因 此 ， 为 了 
不 丢失 _ sentinel :hello 频道 的 任何 信息 ，Sentinel 必 须 专 门 用 一 个 
订阅 连接 来 接收 该 频道 的 信息 。 


男 一 方面 ， 除 了 订阅 频道 之 外 ，Sentinel 还 必须 同 主 服 务 兹 发 
送 命令 ， 以 此 来 与 主 服 务 器 进行 通信 ， 所 以 Sentinel 还 必须 问 主 服 
务 器 创建 命令 连接 。 


因为 Sentinel 需 要 与 多 个 实例 创建 多 个 网 络 连接 ， 所 以 Sentinel 
使 用 的 是 异步 连接 。 

















图 16-8 展 示 了 一 个 Sentinel 同 被 它 监视 的 两 个 主 服务 器 master1 和 和 
master2 创 建 命令 连接 和 订阅 连接 的 例子 。 


A De 阅 连 接 来 与 
被 监视 主 服 务 器 进行 通信 的 。 


Sentinel 


(masterl 和 master2 的 客户 端 ) 





图 16-8 ”Sentinel 同 主 服 务 器 创建 网 络 连 接 


16. 2 获取 主 服 务 器 信息 4 


Sentinel 默 认 会 以 每 十 秒 一 次 的 频率 ， 通 过 命令 连接 向 被 监视 的 主 


I 令 ， 并 通过 分 析 INFO 命 令 的 回复 来 获取 主 服 务 器 的 
当前 信息 。 


INFO 





图 16-9 ”Sentinel 同 带 有 三 个 从 服务 器 的 主 服 务 嚣 友 送 INFO 命 令 


举 个 例子 ， 假 设 如 图 16-9 所 示 ， 主 服务 器 master 有 三 个 从 服务 器 
slave0、slave1 和 slave2， 并 且 一 个 Sentinel 正 在 连接 主 服务 器 ， 那 么 


生地 同 主 服务 器 发 送 INFO 命 令 ， 并 获得 类 似 于 以 下 内 容 的 
回复 : 





# Server 


run_id:7611c59dc3a29aa6fa0609f841bb6a1019008ag9c 
# Replication 
role:master 


slave0:ip=127.0.0.1,port=11111, state=online, offset=43, 1ag=0 
slave1:ip=127.0.0.1,port=22222, state=online, offset=43, 1ag=0 
slave2:ip=127.0.0.1,port=33333, state=online, offset=43, 1ag=0 


# Other sections 





通过 分 析 主 服务 器 返回 的 INFO 命 令 回 复 ，Sentinel 可 以 获取 以 下 两 
方面 的 信息 : 


一 方面 是 天 于 主 服 务 嚣 本身 的 信息 ， 包 括 run_id 域 记录 的 服务 器 运 
行 ID， 以 及 role 域 记录 的 服务 器 角色 ; 


- 妃 一 方面 是 关于 主 服务 器 属 下 所 有 从 服务 器 的 信息 ， 每 个 从 服务 
虱 都 由 一 个 "slave" 学 符 串 开头 的 行 记录 ， 每 行 的 ip= 域 记录 了 从 服务 絮 
的 卫 地 址 ， 而 port= 域 则 记录 了 从 服务 器 的 端口 号 。 根 据 这 些 耳 地 址 和 站 
口 ，Sentinel 无 须 用 户 提供 从 服务 器 的 地 址 信息 ， 就 可 以 自动 发 现 从 
服务 右 。 


根据 run_id 域 和 role 域 记录 的 信息 ，Sentinel 将 对 主 服 务 器 的 实例 结 
构 进 行 更 新 ， 例 如 ， 主 服务 器 重启 之 后 ， 它 的 运行 人 D 束 会 和 实例 结构 之 
前 保存 的 运行 ID 不 同 ，S$entinel 检 测 到 这 一 情况 之 后 ， 就 会 对 实例 结构 
的 运行 ID 进行 更 新 。 


至 于 主 服 务 器 返回 的 从 服务 器 信息 ， 则 会 被 用 于 更 新 主 服 务 器 实例 
结构 的 slaves 字 典 ， 这 个 字典 记录 了 主 服务 器 属 下 从 服务 器 的 名 单 : 


:字典 的 键 是 由 Sentinel 自 动 设置 的 从 服务 器 名 字 ， 格 式 为 ip:port: 
如 对 于 IP 地 址 为 127.0.0.1， 端 口号 为 11111 的 从 服务 器 来 说 ，Sentinel 为 
它 设置 的 名 字 就 是 127.0.0.1:11111。 


:至 于 字典 的 值 则 是 从 服务 器 对 应 的 实例 结构 :比如 说 ， 如 果 键 是 
127.0.0.1:11111， 那 么 这 个 键 的 值 就 是 也 地 址 为 127.0.0.1， 端 口号 为 
11111 的 从 服务 器 的 实例 结构 。 


Sentinel 在 分 析 INFO 命 令 中 包含 的 从 服务 器 信息 时 ， 会 检查 从 服务 
器 对 应 的 实例 结构 是 否 已 经 存在 于 slaves 字 典 : 


.如 果 从 服务 器 对 应 的 实例 结构 已 经 存在 ， 那 么 Sentinel 对 从 服务 器 
的 实例 结构 进行 更 新 。 


:如 果 从 服务 器 对 应 的 实例 结构 不 存在 ， 那 么 说 明 这 个 从 服务 器 是 
新 发 现 的 从 服务 器 ，Sentinel 会 在 slaves 字 典 中 为 这 个 从 服务 器 新 创建 一 
个 实例 结构 。 




















对 于 我 们 之 前 列举 的 主 服 务 器 master 和 三 个 从 服务 器 slave0、slavel 
和 slave2 的 例子 来 说 ，Sentinel 将 分 别 为 三 个 从 服务 器 创建 它们 各 目的 实 
人 
16-10 所 未 。 


flags 
SRI MASTER 
run ld 
"1611c59dc3a29aa6fa0609f841bb6al019008a9c” 


name 
"master" 


Slaves 













sentinelRedisInstance 


flags 
SRI SLAVE 










Name 


; Wl 00s eld 
dict 


Wal Qed" 
"127,0,0,1;22222" 
WA 



















sentinelRedisInstance 








flags 
SRI SLAVE 


name 
ll ed 





sentinelRedisInstance 
flags 
SRI_SLAVE 


name 
Tad ldo 





图 16-10” 主 服务 器 和 它 的 三 个 从 服务 器 
注意 对 比 图 中 主 服务 器 实例 结构 和 从 服务 器 实例 结构 之 间 的 区 别 : 


主 服务 器 实例 结构 的 flags 属 性 的 值 为 SRL MASTER， 而 从 服务 器 
实例 结构 的 flags 属 性 的 值 为 SRI_SLAVE。 


: 主 服务 器 实例 结构 的 name 属 性 的 值 是 用 户 使 用 Sentinel 配 置 文 件 设 
置 的 ， 而 从 服务 器 实例 结构 的 name 属 性 的 值 则 是 Sentinel 根 据 从 服务 器 
的 IP 地 址 和 端口 号 自动 设置 的 。 


16.3 ”获取 从 服务 器 信息 


当 Sentinel 发 现 主 服务 器 有 新 的 从 服务 器 出 现时 ，Sentinel 除 了 会 为 
这 个 新 的 从 服务 器 创建 相应 的 实例 结构 之 外 ，Sentinel 还 会 创建 连接 到 
从 服务 器 的 命令 连接 和 订阅 连接 。 


举 个 例子 ， 对 于 图 16-10 所 示 的 主 从 服务 器 关系 来 说 ，Sentinel 将 对 
slave0、slavel 和 slave2 三 个 从 服务 器 分 别 创 建 命令 连接 和 订阅 连接 ， 如 
图 16-11 所 示 。 






Sentinel 






创 创 \ 创 
建 建 \ 建 
命 \ 命 | 订 
今 |\ 令 | 阅 
连 连 | 连 
接 | 接 | 接 


图 16-11 Sentinel 与 各 个 从 服务 需 建 立 命 令 连 接 和 订阅 连接 


在 创建 命令 连接 之 后 ，Sentinel 在 默认 情况 下 ， 会 以 每 十 秒 一 次 的 
J 回 从 服务 露 发送 INFO 命 令 ， 并 获得 类 似 于 以 下 内 容 
J 回复 : 


# Server 
run_id:32be0699dd27b410f7c90dada3a6fab17f97899f 


# Replication 


role:slave 
master_host:127.0.0.1 
master_port:6379 
master_link_status:up 
slave_repl offset:11887 
slave_priority:100 

# Other sections 





根据 INFO 命 令 的 回复 ，Sentinel 会 提取 出 以 下 信息 : 

:从 服务 器 的 运行 ID run_id。 

:从 服务 器 的 角色 role。 

: 主 服务 器 的 IP 地 址 master_host， 以 及 主 服务 器 的 端口 号 


master_port。 
` 主 从 服务 器 的 连接 状态 master_link_status。 
:从 服务 器 的 优先 级 slave_priority。 
:从 服务 器 的 复制 偏 移 量 slave_repl_offset。 
根据 这 些 信息 ，Sentinel 会 对 从 服务 器 的 实例 结构 进行 更 新 ， 图 16- 


12 展 示 了 Sentinel 根 据 上 面 的 INFO 命 令 回 复 对 从 服务 占 的 实例 结构 进行 
更 新 之 后 ， 实 例 结构 的 样子 。 








SRI_SLRAVE 
run id 
slave master host 
slave master port 


slave repl offset 
11887 


slave priority 


100 


图 16-12 ”从 服务 器 实例 结构 


slave master link status 
SENTINEL MASTER LINK STATUS UP 





16.4 回 主 服务 器 和 从 服务 器 发 送信 息 


在 默认 情况 下 ，Sentinel 会 以 每 两 秒 一 次 的 频率 ， 通 过 命令 连接 同 
所 有 被 监视 的 主 服 务 器 和 从 服务 器 发 送 以 下 格式 的 命令 : 





PUBLISH __sentinel :hello "<s_ip>,<s_port>,<s_runid>,<s_epoch>,<m_name>, <m_ip>,<m_port>,<m_epoch>" 








这 条 命令 向 服务 器 的 _sentinel _:hello 频 道 发 送 了 一 条 信息 ， 信 息 
的 内 容 由 多 个 参数 组 成 : 


.其 中 以 s 开头 的 参数 记录 的 是 Sentinel 本 身 的 信息 ， 各 个 参数 的 意 
义 如 表 16-2 所 示 。 


:而 mm_ 开头 的 参数 记录 的 则 是 主 服 务 器 的 信息 ， 各 个 参数 的 意义 如 
表 16-3 所 示 。 如 果 Sentinel 正 在 监视 的 是 主 服 务 器 ， 那 么 这 些 参数 记录 的 
就 是 主 服 务 器 的 信息 ; 如 果 Sentinel 正 在 监视 的 是 从 服务 器 ， 那 么 这 些 
参数 记录 的 就 是 从 服务 器 正在 复制 的 主 服 务 器 的 信息 。 


表 16-2 信息 中 和 Sentinel 有 关 的 参数 











参 数 意义 
s ip Sentinel 的 全 地 址 
s port Sentinel 的 六 口 汪 
s runid Sentine| 的 运行 人 D 
s epoch Sentinel 当前 的 配置 纪元 ( configuration epoch ) 


表 16-3 信息 中 和 主 服务 器 有 关 的 参数 











m name 主 服务 各 的 名 竺 

n ip 让 服务 各 的 也 地 址 

m port 让 服务 外 的 疡 口号 

m epoch 主 服 务 杖 当 剖 的 配置 纪元 


以 下 是 一 条 Sentine] 通 过 PUBLISH 命 令 向 主 服务 器 发 送 的 信息 示 
例 : 





"127.0.0.1,26379, e955b4c85598ef5b5fO55bc7ebfd5e828dbed4fa, 9,mymaster,127.0.0.1,6379,0" 





这 个 示例 包含 了 以 下 信息 : 


.Sentinel 的 卫 地 址 为 127.0.0.1 端 口号 为 26379， 运 行 ID 为 
e955b4c85598ef5b5f055bc7ebfd5e828dbed4fa， 当 前 的 配置 纪元 为 0。 


. 主 服务 器 的 名 字 为 mymaster，IP 地 址 为 127.0.0.1， 端 口号 为 6379， 
当前 的 配置 纪元 为 0。 


16.5 ”接收 来 自主 服务 器 和 从 服务 器 的 频道 信息 


当 Sentinel 本 一 个 主 服务 器 或 首 从 服务 器 建立 起 订 阅 连 接 之 后 ， 
Sentinel 就 会 通过 订阅 连接 ， 同 服务 器 发 送 以 下 命令 : 





SUBSCRIBE _ sentinel :hello 


Sentinel 对 ”sentinel _ :hello 频 道 的 订阅 会 一 直 持 续 到 Sentinel 与 服务 
器 的 连接 断 开 为 止 。 


这 也 就 是 说 ， 对 于 每 个 与 Sentinel 连 接 的 服务 器 ， 命 









令 连 接 同 服务 器 的 __sentinel 0 忆 过 订阅 连接 从 
服务 器 的 ”sentinel :hello 频 道 接收 信息 人 
通过 命令 连接 
发 送信 息 到 频道 
















De 通过 订阅 连接 
从 频道 中 接收 信息 


图 16-13 ”Sentinel 同 时 间 服 务 器 发送 和 接收 信息 


对 于 监视 同一 个 服务 器 的 多 个 Sentinel 来 说 ， 一 个 Sentinel 发 送 的 信 

因 会 被 其 他 Sentinel 接 收 到 ， 这 些 信息 会 被 用 于 更 新 其 他 Sentinel 对 发 送 

居 Sentinel 的 认 知 ， 也 会 被 用 于 更 新 其 他 Sentinel 对 被 监视 服务 器 的 认 
I, 


举 个 例子 ， 假 设 现在 有 sentinel1、sentinel2、sentinel3 三 个 Sentinel 在 
监视 同 一 沾 服务 占 ， 那么 当 sentinel1 同 服务 器 的 __sentinel _:hello 频 道 发 
送 一 条 信息 时 ， 所 有 订阅 了 __sentinel _:hello 频 道 的 Sentinel (包括 
sentinel1l 上 自己 在 内 ) 都 会 收 到 这 条 信息 ， 如 图 16-14 所 示 。 





发 送信 息 、 接收 信息 接收 信息 。 ”后 收 信息 
(命令 连接 )\( 订 阅 连接 ) (订阅 连接 ), “(订阅 连接 ) 
i 








服务 占 





图 16-14 ” 问 服 务 嚣 发送 信息 


当 一 个 Sentinel 从 ”sentinel _:hello 频 道 收 到 一 条 信息 时 ，Sentinel 会 
对 这 条 信息 进行 分 析 ， 提 取出 信息 中 的 Sentinel ”IP 地 址 、Sentinel 站 口 
写 、Sentinel 运 行 ID 等 八 个 参数 ， 并 进行 以 下 检查 : 


.如 果 信 息 中 记录 的 Sentinel 运 行 ID 和 接收 信息 的 Sentinel 的 运行 ID 相 
同 ， 那 么 说 明 这 条 信息 是 Sentinel 自 己 发 送 的 ，Sentinel 将 丢弃 这 条 信 
息 ， 不 做 进一步 处 理 。 


-相反 地 ， 如 果 信 息 中 记录 的 Sentinel 运 行人 D 和 接收 信息 的 Sentinel 的 
运行 人 DD 不 相同 ， 那 么 说 明 这 条 信息 是 监视 同一 个 服务 器 的 其 他 Sentinel 
发 来 的 ， 接 收 信息 的 Sentinel 将 根据 信息 中 的 各 个 参数 ， 对 相应 主 服务 
器 的 实例 结构 进行 更 新 。 


16.5.1 更 新 sentinels 字 上 典 


Sentinel 为 主 服务 器 创建 的 实例 结构 中 的 sentinels 字 — 典 保存 了 除 
Sentinel 本 身 之 外 ， 所 有 同样 监视 这 个 主 服 务 器 的 其 他 Sentinel 的 资料 : 


sentinels 字 典 的 键 是 其 中 一 个 Sentinel 的 名 字 ， 格 式 为 ip:port， 比 如 
对 于 IP 地 址 为 127.0.0.1， 端 口号 为 26379 的 Sentinel 来 说 ， 这 个 Sentinel 在 
sentinels 字 典 中 的 键 就 是 "127.0.0.1:26379"。 


“sentinels 字 上 典 的 值 则 是 键 所 对 应 Sentinel 的 实例 结构 ， 比 如 对 于 
键 "127.0.0.1:26379" 来 说 ， 这 个 键 在 sentinels 字 上 典 中 的 值 就 是 IP 为 
127.0.0.1， 端 口号 为 26379 的 Sentinel 的 实例 结构 。 














当 一 个 Sentinel 接 收 到 其 他 Sentinel 发 来 的 信息 时 (我 们 称呼 发 送信 
上 县 的 Sentine] 为 源 Sentinel， 接 收 信 息 的 Sentinel] 为 目标 Sentinel) ， 目 标 
Sentinel 会 从 信息 中 分 析 并 提取 出 以 下 两 方面 参数 : 


.与 Sentinel] 有 关 的 参数 : 源 Sentinel 的 了 地址 、 端 口号、 运行 ID 和 配 
置 纪元 。 


.与 主 服 务 器 有 关 的 参数 : 源 Sentinel 正 在 监视 的 主 服务 器 的 名 字 、 
IP 地 址 、 端 口号 和 配置 纪元 。 


根据 信息 中 提取 出 的 主 服务 嚣 参数， 目标 Sentinel 会 在 自己 的 
Sentinel 状 态 的 masters 字 上 典 中 查找 相应 的 主 服务 右 实 例 结构 ， 然 后 根据 
提取 出 的 Sentinel 参 数 ， 检 查 主 服 务 右 实例 结构 的 sentinels 字 典 中 ， 源 
Sentinel 的 实例 结构 是 否 存 在 : 


:如 果 源 Sentinel 的 实例 结构 已 经 存在 ， 那 么 对 源 Sentinel 的 实例 结构 
进行 更 新 。 


:如 果 源 Sentinel 的 实例 结构 不 存在 ， 那 么 说 明 源 Sentinel 是 刚刚 开始 
监视 主 服 务 器 的 新 Sentinel， 目标 Sentinel 会 为 源 Sentinel 创 建 一 个 新 的 实 
例 结构 ， 并 将 这 个 结构 添加 到 sentinels 字 典 里 面 。 


举 个 例子 ， 假 设 分 别 有 127.0.0.1:26379、127.0.0.1:26380、 
127.0.0.1:26381 三 个 Sentinel 正 在 监视 主 服务 器 127.0.0.1:6379， 那 么 当 
127.0.0.1:26379 这 个 Sentinel 接 收 到 以 下 信息 时 : 











1) "messa ge" 
"__sentinel :hello" 
) "127.0.0.1,26379, e955b4c85598ef5b5f055bc7ebfd5e828dbed4fa,9,mymaster,127.0.0.1,6379,0" 


9 
2) "__sentinel _:hello" 
3) "127.0.0.1,26381,6241bf5cf9bfc8ecdi5d6eb6cc3185edfbb24903,0,mymaster,127.0.0.1,6379,0" 
9 
"__sentinel :hello" 
3) "127.0.0.1,26380,a9b22fb79ae8fad28e4ea77d20398f77f6b89377,0,mymaster,127.0.0.1,6379,0" 





Sentinel 将 执行 以 下 动作 : 
:第 一 条 信息 的 发 送 者 为 127.0.0.1:26379 自 己 ， 这 条 信息 会 被 忽略 。 


:第 二 条 信息 的 发 送 者 为 127.0.0.1:26381，Sentinel 会 根据 这 条 信息 中 
提取 出 的 内 容 ， 对 sentinels 字 上 典 中 127.0.0.1:26381 对 应 的 实例 结构 进行 更 


新 。 


:第 三 条 信息 的 发 送 者 为 127.0.0.1:26380，Sentinel 会 根据 这 条 信息 中 
提取 出 的 内 容 ， 对 sentinels 字 上 典 中 127.0.0.1:26380 所 对 应 的 实例 结构 进行 
更 新 。 


图 16-15 展 示 了 Sentinel 127.0.0.1:26379 为 主 服 务 器 127.0.0.1:6379 创 
建 的 实例 结构 ， 以 及 结构 中 的 sentinels 字 上 典 。 


sentinelRedisInstance 


flags 
SRI MASTER 


name 
"mymaster" 


sentinels 


























sentinelRedisInstance 


flags 
name 
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sentinelRedisInstance 







dict 
27 0 0ad 20630" 





a db 


flags 
SRI SENTINEL 
name 
"T0120 


图 16-15” 主 服务 右 实 例 结构 中 的 sentinels 字 典 


和 127.0.0.1:26379 一 样 ， 其 他 两 个 Sentinel 也 会 创建 类 似 于 图 16-15 所 
示 的 sentinels 字 典 ， 区 别 在 于 字典 中 保存 的 Sentinel 信 息 不 同 : 


.127.0.0.1:26380 创 建 的 sentinels 字 典 会 保存 127.0.0.1:26379 和 
127.0.0.1:26381 两 个 Sentinel 的 信息 。 


.而 127.0.0.1:26381 创 建 的 sentinels 字 典 则 会 保存 127.0.0.1:26379 和 
127.0.0.1:26380 两 个 Sentinel 的 信息 。 


因为 一 个 Sentinel 可 以 通过 4 分 术 接 收 到 的 频道 信息 来 获知 其 他 
Sentinel 的 存在 ， 并 通过 发 送 频道 信息 来 让 其 “他 Sentinel 知 首 自己 的 存 
在 ， 所 以 用 户 在 使 用 Sentinel 的 时 候 并 不 需要 提供 各 个 Sentinel 的 地 址 信 
晨 ， 监 视 同一 个 主 服务 器 的 多 个 Sentinel 可 以 自动 友 现 对 方 。 


16.5.2 ”创建 连同 其 他 Sentinel 的 命令 连接 


当 Sentinel 通 过 频道 信息 发 现 一 个 新 的 Sentinel 时 ， 它 不 仪 会 为 新 
Sentinel 在 sentinels 字 上 典 中 创建 相应 的 实例 结构 ， 还 还 会 创建 一 个 连 加 新 
Sentinel 的 命令 连接 ， 而 新 Sentinel 也 同样 会 创建 连同 这 个 Sentinel 的 命令 
连接 ， 最 终 监 视 同一 主 服务 器 的 J 多 个 Sentinel 将 形成 相互 连接 的 网 党 ; 
Sentinel A 有 连同 Sentinel B 的 命令 连接 ， 而 Sentinel B 也 有 连 疝 Sentinel A 
的 命令 连接 。 









sentinell | 


命令 连接 


下 


主 服务 器 


图 16-16 ”各 个 Sentinel 之 间 的 网 络 连 接 
ES 16 展 示 了 三 个 监视 同一 主 服务 器 的 Sentinel 之 间 是 如 何 互 相连 


使 用 命令 令 连 接 相 连 的 各 个 Sentinel 可 以 通过 向 其 他 Sentinel 发 送 命 令 
请 求 来 进行 信息 交换 ， 本 章 接 下 来 将 对 Sentinel 实 现 主观 下 线 检测 和 客 
观 下 线 检测 的 原理 进行 介绍 ， 这 两 种 检测 都 会 使 用 Sentinel 之 间 的 命令 


连接 来 进行 通信 。 





Sentinel 之 间 不 会 创建 订阅 连 接 


Sentinel 在 连接 主 服务 器 或 者 从 服务 器 时 ， 会 同时 创建 命 
接 和 订阅 连接 ， 但 是 在 连接 其 他 Sentinel 时 ， 却 只 会 创建 命令 连 
接 ， 而 不 创建 订阅 连接 。 这 是 因为 Sentinel 需 要 通过 接收 主 服务 器 
或 者 从 服务 器 及 来 的 频道 信息 来 肥 现 未 知 的 新 Sentinel， 所 以 才 需 
要 建立 订阅 连接 ， 而 相互 已 知 的 Sentinel 只 要 使 用 命令 连接 来 进行 


通信 束 足 够 了 。 








16.6 检测 主观 下 线 状 态 


在 默认 情况 下 ，Sentinel 会 以 每 秒 一 次 的 频率 向 所 有 与 它 创 建 了 命 
令 连接 的 实例 (包括 主 服务 器 、 从 服务 器 、 其 他 Sentinel 在 内 〉 友 送 
PING 命 令 ， 并 通过 实例 返回 的 PING 命 令 回复 来 判断 实例 是 否 在 线 。 








less | 


| 


图 16-17 ”Sentinel 同 实例 发 送 PING 命 令 


在 图 16-17 展 示 的 例子 中 ， 带 箭头 的 连 线 显示 了 Sentinel1 和 Sentinel2 
是 如 何 回 实例 发 送 PING 命 令 的 : 


-Sentinell 将 向 Sentinel2、 主 服务 器 master、 从 服务 器 slave1 和 slave2 
发 送 PING 命 令 。 





“Sentinel2 将 向 Sentinel1、 主 服务 器 master、 从 服务 器 slave1 和 slave2 
发 送 PING 命 令 。 


实例 对 PING 命 令 的 回复 可 以 分 为 以 下 两 种 情况 


.有 效 回 复 : 实例 返回 +PONG、-LOADING、-MASTERDOWN 三 种 
回复 的 其 中 一 种 。 


:无 效 回复 : 实例 返回 除 +PONG、-LOADING、-MASTERDOWN 三 
种 回复 之 外 的 其 他 回复 ， 或 者 在 指定 时 限 内 没有 返回 任何 回复 。 


Sentinel 配 置 文件 中 的 down-after-milliseconds 选 项 指定 了 Sentine] 判 
断 实例 进入 主观 下 线 所 需 的 时 间 长 度 ， 如 果 一 个 实例 在 down-after- 
milliseconds 上 毫秒 内 ， 连 续 向 Sentinel 返 回 无 效 回复 ， 那 么 Sentinel 会 修改 
这 个 实例 所 对 应 的 实例 结构 ， 在 结构 的 flags 属 性 中 打开 SRI_S_DOWN 标 
识 ， 以 此 来 表示 这 个 实例 已 经 进入 主观 下 线 状 态 。 


以 图 16-17 展 示 的 情况 为 例子 ， 如 果 配 置 文件 指定 Sentinell 的 down- 
after-milliseconds 选 项 的 值 为 50000 毫 秒 ， 那 么 当主 服务 器 master 连 续 
50000 坚 秒 都 癌 Sentinel1 返 回 无 效 回复 时 ，Sentinel1 就 会 将 master 标 记 为 
主观 下 线 ， 并 在 master 所 对 应 的 实例 结构 的 flags 属 性 中 打开 
SRI S_DOWN 标 识 ， 如 图 16-18 所 示 。 











sentinelRedisInstance 


flags 
SRI MASTER | SRI 5S DOWN 


name 
"master" 


图 16-18 ” 主 服务 器 被 标记 为 主观 下 线 





主观 下 线 时 长 选项 的 作用 范 


用 户 设置 的 down-after-milliseconds 选 项 的 值 ， 不 仅 会 被 Sentinel 
用 来 判断 主 服 务 器 的 主观 下 线 状态 ， 还 会 被 用 于 判断 主 服 务 器 属 下 
的 所 有 从 服务 器 ， 以 及 所 有 同样 监视 这 个 主 服务 器 的 其 他 Sentinel 
的 主观 下 线 状态 。 举 个 例子 ， 如 果 用 户 问 Sentinel 设 置 了 以 下 配 
置 : 





ntinel monitor maste 人 0.0. pe 6872 之 
ntinel down-afte mi onds ster 50000 





那么 50000 毫 秒 不 仅 会 成 为 Sentinel] 判 断 master 进 入 主观 下 线 的 
标准 ， 还 会 成 为 Sentinel 判 断 master 属 下 所 有 从 服务 器 ， 以 及 所 有 同 
样 监视 master 的 其 他 Sentinel 进 入 主观 下 线 的 标准 。 


多 个 Sentinel 设 置 的 主观 下 线 时 长 可 能 不 同 


down-after-milliseconds 选 项 男 一 个 需要 注意 的 地 方 是 ， 对 于 监 
视 同一 个 主 服 务 器 的 多 个 Sentinel 来 说 ， 这 些 Sentinel 所 设置 的 down- 
after-milliseconds 选 项 的 值 也 可 能 不 同 ， 因 此 ， 当 一 个 Sentinel 将 主 
服务 器 判断 为 主观 下 线 时 ， 其 他 Sentinel 可 能 仍然 会 认为 主 服务 器 
处 于 在 线 状 态 。 举 个 例子 ， 如 果 Sentinel1 载 入 了 以 下 配置 : 








Sentinel monitor Ster 9 didi .6379. 2 
sentinel Ow rE 本 二 onds master 50000 





而 Sentinel2 则 载 入 了 以 下 配置 : 





ntinel monitor maste 和 0.0. 和 2 之 
ntinel down-afte mi onds ster 10000 





那么 当 master 的 断 线 时 长 超过 10000 毫 秒 之 后 ，Sentinel2 会 将 
master 判 断 为 主观 下 线 ， 而 Sentinel1 却 认为 master 仍 然 在 线 。 只 有 当 
master 的 断 线 时 长 超过 50000 坚 秒 之 后 ，Sentinel1 和 Sentinel12 才 会 都 
认为 master 进 入 了 主观 下 线 状 态 。 


16.7 检查 客观 下 线 状态 


当 Sentinel 将 一 个 主 服 务 器 判断 为 主观 下 线 之 后 ， 为 了 确认 这 个 主 
服务 器 是 否 真 的 下 线 了 ， 它 会 同 同 样 监视 这 一 主 服 务 占 的 其 他 Sentinel 
进行 询问 ， 看 它们 是 否 也 认为 主 服务 器 已 经 进入 了 下 线 状 态 ( 可 以 是 主 
观 下 线 或 者 客观 下 线 ) 。 当 Sentinel 从 其 他 Sentinel 那 里 接收 到 足够 数量 
的 已 下 线 判 断 之 后 ，Sentinel 束 会 将 从 服务 器 判定 为 客观 下 线 ， 并 对 主 
服务 器 执行 故障 转移 操作 。 


16.7.1 发 送 SENTINEL is-master-down-by-addr 命 令 
Sentinel 使 用 : 








SENTINEL is-master-down-by-addr <ip> <port> <current_epoch> <runid> 





命令 询问 其 他 Sentinel 是 否 同意 主 服务 器 已 下 线 ， 命 令 中 的 各 个 参 
数 的 意 各 义 如 表 16- 4 上 所 示 。 


表 16-4 SENTINEL is-master-down-by-addr 命 令 各 个 参数 的 意义 
参 数 意义 

ip 被 Sentinel 判断 为 主观 下 线 的 主 服务 器 的 贡 地 址 

port 被 Sentine| 判断 为 主观 下 线 的 主 服 务 共 的 如 口号 

current epoch | Sentinel 当前 的 配色 纪 元 ， 用 于 选举 领 尖 Sentinel， 详 细作 用 将 在 下 一 节 说 明 


加 以 是 * 人 San 的 远 行 ID，* 符号 代表 命令 仅仅 用 于 检测 主 服 务 器 的 客观 下 线 
状态 ， 而 Sentinel 的 志和 四 则 用 于 头 Sentinel， 详 细作 用 将 在 下 一 节 说 明 


runid 


举 个 例子 ， 如 果 被 Sentinel 判 断 为 主观 下 线 的 主 服务 器 的 IP 为 
127.0.0.1， 端 口号 为 6379， 并 且 Sentinel 当 前 的 配置 纪元 为 0， 那 么 


Sentinel 将 向 其 他 Sentinel 发 送 以 下 命令 





SENTINEL is-master-down-by-addr 127.0.0.1 6379 0 * 





16.7.2 ”接收 SENTINEL is-master-down-by-addr 命 令 


当 一 个 Sentinel《〈 目 标 Sentinel) 接收 到 另 一 个 Sentinel 〈 源 Sentinel ) 
发 来 的 SENTINEL is-master-down-by 命 令 时 ， 目 标 Sentinel 会 分 析 并 取出 
命令 请 求 中 包含 的 各 个 参数 ， 并 根据 其 中 的 主 服务 器 IP 和 端口 号 ， 检 查 
主 服 务 器 是 否 ;已 下 线 ， 然 后 向 源 Sentinel 返 回 一 条 包含 三 个 参数 的 Multi 
Bulk 回 复 作 为 SENTINEL is-master-down-by 命 令 的 回复 : 











表 16-5 分 别 记录 了 这 三 个 参数 的 意义 。 


表 16-5 SENTINEL is-master-down-by-addr 回 复 的 意义 
参 数 意义 
down state 返回 目标 Sentinel 对 主 服务 器 的 检查 结果 ，1 代表 主 服务 大 已 下 线 ，0 代表 主 服务 器 未 下 线 


leader runid | 可 以 是 * 符 号 或 者 目标 Sentinel 的 局 部 领头 Sentinel 的 运行 D，* 符号 代表 命令 仅仅 用 于 
检测 主 服务 器 的 下 线 状态 ， 而 局 部 领头 Sentinel 的 运行 ID 则 用 于 选举 领头 Sentinel， 详 细作 
用 将 在 下 一 广 说 明 


leader epoch | 目标 Sentinel 的 局 部 领头 Sentinel 的 配置 纪元 ， 用 于 选举 领头 Sentinel， 详 细作 用 将 在 
一 节 说 明 。 仅 在 leader runid 的 值 不 为 * 时 有 效 ， 如 果 leader runid 的 值 为 *， 
leader epoch 总 为 0 


举 个 例子 ， 如 果 一 个 Sentinel 返 回 以 下 回复 作为 SENTINEL is- 


master-down-by-addr 命 令 的 回复 : 








那么 说 明 Sentinel 也 同意 主 服 务 器 已 下 线 。 
16.7.3 ”接收 SENTINEL is-master-down-by-addr 命 令 的 回复 


根据 其 他 Sentinel 发 回 的 SENTINEL ”is-master-down-by-addr 命 令 回 
复 ，Sentinel 将 统计 其 他 Sentinel 同 意 主 服 务 器 已 下 线 的 数量 ， 当 这 一 数 
量 达 到 配置 指定 的 判断 客观 下 线 所 需 的 数量 时 ，Sentinel 会 将 主 服务 器 
实例 结构 flags 属 性 的 SRI_O_DOWN 标 识 打 开 ， 表 示 主 服务 器 已 经 进入 
客观 下 线 状 态 ， 如 图 16-19 所 示 。 


sentinelRedisInstance 


flags 
SRI MASTER | SRI SS DOWN | SRI O DOWN 


name 
"master" 


图 16-19 ” 主 服务 右 被 标记 为 客观 下 线 





客观 下 线 状 态 的 判断 条 件 


当 认 为 主 服务 器 已 经 进入 下 线 状 态 的 Sentinel 的 数量 ， 超 过 
Sentinel 配 置 中 设置 的 quorum 参 数 的 值 ， 那 么 该 Sentinel 束 会 认为 主 
服务 器 已 经 进入 客观 下 线 状态 。 比 如 说 ， 如 果 Sentinel 在 启动 时 载 
入 了 以 下 配置 : 





sentinel monitor master 127.0.0.1 6379 2 





那么 包括 当前 Sentinel 在 内 ， 只 要 总 共有 两 个 Sentinel 认 为 主 服 
务 器 已 经 进入 下 线 状 态 ， 那 么 当前 Sentinel 就 将 主 服 务 器 判断 为 客 
观 下 线 。 又 比如 说 ， 如 果 Sentinel 在 启动 时 载 入 了 以 下 配置 ， 


sentinel monitor master 127.0.0.1 6379 5 





那么 包括 当前 Sentinel 在 内 ， 总 共 要 有 五 个 Sentinel 都 认为 主 服 
务 右 已 经 下 线 ， 当 前 Sentinel 才 会 将 主 服务 右 判 断 为 客观 下 线 。 


不 同 Sentinel 判 断 客观 下 线 的 条 件 可 能 不 同 


对 于 监视 同一 个 主 服务 器 的 多 个 Sentinel 来 说 ， 它 们 将 主 服 务 
器 标 判 断 为 客观 下 线 的 条 件 可 能 也 不 同 : 当 一 个 Sentinel 将 主 服务 
器 判断 为 客观 下 线 时 ， 其 他 Sentinel 可 能 并 不 是 那么 认为 的 。 比 如 
说 ， 对 于 监视 同一 个 主 服务 器 的 五 个 Sentinel 来 说 ， 如 果 Sentinel1 在 
局 动 时 载 入 了 以 下 配置 : 





sentinel monitor master 127.0.0.1 6379 2 


那么 当 五 个 Sentinel 中 有 两 个 Sentinel 认 为 主 服务 器 已 经 下 线 
时 ，Sentinell 就 会 将 主 服 务 器 标 判 断 为 客观 下 线 。 


而 对 于 载 入 了 以 下 配置 的 Sentinel2 来 说 : 


仅 有 两 个 Sentinel 认 为 主 服 务 器 已 下 线 ， 并 不 会 令 Sentinel2 将 主 
服务 器 判断 为 客观 下 线 。 


16.8 ”选举 领头 Sentinel 


当 一 个 主 服 务 嚣 被 判断 为 客观 下 线 时 ， 监 视 这 个 下 线 主 服 务 器 的 各 
个 Sentinel 会 进行 协商 ， 选 举 出 一 个 领头 Sentinel， 并 由 领头 Sentinel 对 下 
线 主 服务 器 执行 故障 转移 操作 。 


以 下 是 Redis 选 举 领 头 Sentinel 的 规则 和 方法 : 


:所 有 在 线 的 Sentinel 都 有 被 选 为 领头 Sentinel 的 资格 ， 换 句 话说 ， 监 
视 同一 个 主 服务 器 的 多 个 在 线 Sentinel 中 的 任意 一 个 都 有 可 能 成 为 领头 


Sentinel。 


每 次 进行 领头 Sentinel 选 举 之 后 ， 不 论 选举 是 否 成 功 ， 所 有 Sentinel 
的 配置 纪元 (configuration epoch) 的 值 都 会 自 增 一 次 。 配 置 纪元 实际 上 
就 是 一 个 计数 器 ， 并 没有 什么 特别 的 。 


.在 一 个 配置 纪元 里 面 ， 所 有 Sentinel 都 有 一 次 将 某 个 Sentinel 设 置 为 
局 部 领头 Sentinel 的 机 会 ， 并 且 局 部 领头 一 旦 设置 ， 在 这 个 配置 纪元 里 
面 束 不 能 再 更 改 。 


:每 个 发 现 主 服务 器 进入 客观 下 线 的 Sentinel 都 会 要 求 其 他 Sentinel 将 
自己 设置 为 局 部 领头 Sentinel。 


` 当 一 个 Sentinel 〈 源 Sentinel) 回 另 一 个 Sentinel (目标 Sentinel) 发 
送 SENTINEL is-master-down-by-addr 命 令 ， 并 且 命 令 中 的 runid 参 数 不 是 
* 符 号 而 是 源 Sentinel 的 运行 JD 时 ， 这 表示 源 Sentinel 要 求 目 标 Sentinel 将 
前 者 设置 为 后 者 的 局 部 领头 Sentinel。 


.Sentinel 设 置 局 部 领头 Sentinel 的 规则 是 先 到 先 得 : 最 先 癌 目标 
Sentinel 发 送 设置 要 求 的 源 Sentine] 将 成 为 目标 Sentinel 的 局 部 领头 
Sentinel， 而 之 后 接收 到 的 所 有 设置 要 求 都 会 被 目标 Sentinel 拒 绝 。 


.目标 Sentinel 在 接收 到 SENTINEL is-master-down-by-addr 命 令 之 
后 ， 将 问 源 Sentinel 返 回 一 条 命令 回复 ， 回 复 中 的 leader_runid 参 数 和 
leader_epoch 参 数 分 别 记 录 了 目标 Sentinel 的 局 部 领头 Sentinel 的 运行 ID 和 
配置 纪元 。 




















: 源 Sentinel 在 接收 到 目标 Sentinel 返 回 的 命令 回复 之 后 ， 会 检查 回复 
中 leader_epoch 参 数 的 值 和 目 己 的 配置 纪元 是 否 相 同 ， 如 果 相 同 的 话 ， 
那么 源 Sentinel 继 续 取出 回复 中 的 leader_runid 参 数 ， 如 果 leader_runid 参 
数 的 值 和 源 Sentinel 的 运行 ID 一 致 ， 那 么 表示 目标 Sentinel] 将 源 Sentinel 设 
置 成 了 局 部 领头 Sentinel。 


.如果 有 某 个 Sentinel 被 半数 以 上 的 Sentinel 设 置 成 了 局 部 领头 
Sentinel， 那 么 这 个 Sentinel 成 为 领头 Sentinel。 举 个 例子 ， 在 一 个 由 10 个 
Sentinel 组 成 的 Sentinel 系 统 里 面 ， 只 要 有 大 于 等 于 10/2+1=6 个 Sentinel 将 
某 个 Sentinel 设 置 为 局 部 领头 Sentinel， 那 么 被 设置 的 那个 Sentinel 就 会 成 
为 领头 Sentinel。 


-因为 领头 Sentinel 的 产生 需要 半数 以 上 Sentinel 的 文 持 ， 并 且 每 个 
Sentinel] 在 每 个 配置 纪元 里 面 只 能 设置 一 次 局 部 领头 Sentinel， 所 以 在 一 
个 配置 纪元 里 面 ， 只 会 出 现 一 个 领头 Sentinel。 


.如 果 在 给 定时 限 内 ， 没 有 一 个 Sentinel 被 选举 为 领头 Sentinel， 那 么 
各 个 Sentinel 将 在 一 段 时 间 之 后 再 次 进行 选举 ， 直 到 选 出 领头 Sentine] 为 
Ei 














为 了 熟悉 以 上 规则 ， 让 我 们 来 看 一 个 选举 领头 Sentinel 的 过 程 。 


假设 现在 有 三 个 Sentinel 正 在 监视 同一 个 主 服 务 器 ， 并 且 这 三 个 
Sentinel 之 前 已 经 通过 SENTINEL is-master-down-by-addr 命 令 确 认 主 服务 
俐 进入 了 客观 下 线 状态 ， 如 图 16-20 所 示 。 
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图 16-20 ”三 个 Sentinel 都 发 现 主 服务 器 已 经 进入 了 客观 下 线 状态 


那么 为 了 选 出 领头 Sentinel， 三 个 Sentinel 将 再 次 向 其 他 Sentinel 发 送 
SENTINEL is-master-down-by-addr 命 令 ， 如 图 16-21 所 示 。 


Sentinel A 






SENTINEL 


Sentinel C 


图 16-21 ”Sentinel 再 次 向 其 他 Sentinel 发 送 命 令 


和 检测 客观 下 线 状 态 时 发 送 的 SENTINEL is-master-down-by-addr 命 
令 不 同 ，Sentinel] 这 次 发 送 的 命令 会 人 有 Sentinel 上 自己 的 运行 ID， 例 如 : 





SENTINEL is-master-down-by-addr 127.0.0.1 6379 9 e955b4c85598ef5b5f055bc7ebfd5e828dbed4fa 





如 果 接 收 到 这 个 命令 的 Sentinel] 还 没有 设置 局 部 领头 Sentinel 的 话 ， 
它 就 会 将 运行 ID 为 e955b4c85598ef5b5f055bc7ebfd5e828dbed4fa 的 
Sentinel 设 置 为 自己 的 局 部 领头 Sentinel， 并 返回 类 似 以 下 的 命令 回复 : 





1) 1 
2) e955b4c85598ef5b5f055bc7ebfd5e828dbed4fa 
3) 0 





然后 接收 到 命令 回复 的 Sentinel 就 可 以 根据 这 一 回复 ， 统 计 出 有 多 
少 个 Sentinel 将 目 己 设置 成 了 局 部 领头 Sentinel。 


根据 命令 请 求 发 送 的 先后 顺序 不 同 ， 可 能 会 有 某 个 Sentinel 的 
SENTINEL is-master-down-by-addr 命 令 比 起 其 他 Sentinel 发 送 的 相同 命令 
都 更 快 到 达 ， 并 最 终 胜出 领头 Sentinel 的 选举 ， 然 后 这 个 领头 Sentinel 就 
可 以 开始 对 主 服务 器 执行 故障 转移 操作 了 。 





16.9 ”故障 转移 


在 选举 产生 出 领头 Sentinel 之 后 ， 领 头 Sentinel 将 对 已 下 线 的 主 服务 
器 执行 故障 转移 操作 ， 该 操作 包含 以 下 三 个 步 又 : 


1) 在 已 下 线 主 服 务 嚣 属 下 的 所 有 从 服务 嚣 里面， 挑选 出 一 个 从 服 
务 嚣 ， 并 将 其 转换 为 主 服务 器 。 


2) 让 已 下 线 主 服务 器 属 下 的 所 有 从 服务 器 改 为 复制 新 的 主 服 务 
器 。 

3) 将 已 下 线 主 服务 器 设置 为 新 的 主 服务 器 的 从 服务 器 ， 当 这 个 旧 
的 主 服 务 器 重新 上 线 时 ， 它 就 会 成 为 新 的 主 服务 器 的 从 服务 器 。 
16.9.1 选 出 新 的 主 服务 器 

故障 转移 操作 第 一 步 要 做 的 就 是 在 已 下 线 主 服务 器 属 下 的 所 有 从 服 


务 嚣 中， 挑选 出 一 个 状态 良好 、 数 据 完整 的 从 服务 器 ， 然 后 同 这 个 从 服 
务 右 发 送 SLAVEOF no one 命 令 ， 将 这 个 从 服务 器 转换 为 主 服务 器 。 


新 的 主 服务 器 是 怎样 挑选 出 来 的 


领头 Sentinel 会 将 已 下 线 主 服务 器 的 所 有 从 服务 器 保存 到 一 个 
列表 里 面 ， 然 后 按照 以 下 规则 ， 一 项 一 项 地 对 列表 进行 过 滤 : 


1) 删除 列表 中 所 有 处 于 下 线 或 者 断 线 状 态 的 从 服务 器 ， 这 可 
以 保证 列表 中 剩余 的 从 服务 器 都 是 正常 在 线 的 。 


2) 删除 列表 中 所 有 最 近 五 秒 内 没有 回复 过 领头 Sentinel 的 INFO 
命令 的 从 服务 器 ， 这 可 以 保证 列表 中 剩余 的 从 服务 器 都 是 最 近 成 功 
进行 过 通信 的 。 


3) 删除 所 有 与 已 下 线 主 服务 器 连接 断 开 超过 down-after- 
milliseconds*10 片 秒 的 从 服务 器 : down-after-milliseconds 选 项 指定 
了 判断 主 服 务 器 下 线 所 需 的 时 间 ， 而 删除 断 开 时 长 超过 down-after- 


milliseconds*10 坚 秒 的 从 服务 器 ， 则 可 以 保证 列表 中 剩余 的 从 服务 
吉 都 没有 过 早 地 与 主 服务 器 断 开 连接 ， 换 名 话说， 列表 中 剩余 的 从 
服务 器 保存 的 数据 都 是 比较 新 的 。 


之 后 ， 领 尖 Sentinel 将 根据 从 服务 器 的 优先 级 ， 对 列表 中 剩余 
的 从 服务 器 进行 排序 ， 并 选 出 其 中 优先 级 最 蜗 的 从 服务 器 。 


如 果 有 多 个 具有 相同 最 高 优先 级 的 从 服务 器 ， 那 么 领头 
Sentinel 将 按照 从 服务 器 的 复制 仿 移 量 ， 对 具有 相同 最 局 优先 级 的 
所 有 从 服务 姻 进行 排序 ， 并 选 出 其 中 偏 移 量 最 大 的 从 服务 器 (复制 
偏 移 量 最 大 的 从 服务 强 束 是 保存 着 最 新 数据 的 从 服务 器 〉。 


最 后 ， 如 果 有 多 个 优先 级 最 高 、 复 制 偏 移 量 最 大 的 从 服务 器 ， 
那么 领头 Sentinel 将 按照 运行 ID 对 这 些 从 服务 器 进行 排序 ， 并 选 出 
其 中 运行 ID 最 小 的 从 服务 器 。 
































图 16-22 展 示 了 在 一 次 故障 转移 操作 中 ， 领 头 Sentinel 回 被 选中 的 从 
服务 器 server2 发 送 SLAVEOF no one 命 令 的 情形 。 


领头 Sentinel 
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图 16-22 ”将 server2 升 级 为 主 服务 器 


在 发 送 SLAVEOEF no one 命令 之 后 ， 领 头 Sentinel 会 以 每 秒 一 次 的 频 
率 〈 平 时 是 每 十 秒 一 次 ) ， 问 被 升级 的 从 服务 器 发 送 INFO 命 令 ， 并 观 
察 命令 回复 中 的 角色 (role) 信息 ， 当 被 升级 服务 器 的 role 从 原来 的 slave 
变 为 master 时 ， 领 头 Sentinel 就 知道 被 选中 的 从 服务 器 已 经 顺利 升级 为 主 
服务 器 了 。 


例如 ， 在 图 16-22 展 示 的 例子 中 ， 领 涉 Sentinel 会 一 直 同 server2 发 送 
INFO 命 令 ， 当 server2 返 回 的 命令 回复 从 : 




















的 时 候 ， 领 头 Sentinel] 就 知道 server2 已 经 成 功 升级 为 主 服 务 器 了 。 


领头 Sentinel 





图 16-23 ”server2 成 功 升级 为 主 服务 器 
图 16-23 展 示 了 server2 升 级 成 功 之 后 ， 各 个 服务 器 和 领头 Sentinel 的 
样子 。 
16.9.2 ”修改 从 服务 器 的 复制 目标 
当 新 的 主 服务 器 出 现 之 后 ， 领 头 Sentinel 下 一 步 要 做 的 就 是 ， 让 已 


下 线 主 服务 器 属 下 的 所 有 从 服务 器 去 复制 新 的 主 服务 器 ， 这 一 动作 可 以 
通过 向 从 服务 器 发 送 SLAVEOF 命 令 来 实现 。 


图 16-24 展 示 了 在 故障 转移 操作 中 ， 领 头 Sentinel 回 已 下 线 主 服务 器 
server1 的 两 个 从 服务 器 server3 和 server4 发 送 SLAVEOF 命 令 ， 让 它们 复 
制 新 的 主 服 务 器 server2 的 例子 。 


领头 Sentinel 
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图 16-24 让 从 服务 器 复制 新 的 主 服 务 嘎 


图 16-25 展 示 了 server3 和 server4 成 为 server2 的 从 服务 器 之 后 ， 各 个 服 
务 器 以 及 领头 Sentinel 的 样子 。 


领头 Sentinel 
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图 16-25 ”server 3 和 server4 成 为 server2 的 从 服务 器 
16.9.3 ”将 旧 的 主 服 务 器 变 为 从 服务 器 


故障 转移 操作 最 后 要 做 的 是 ， 将 已 下 线 的 主 服 务 器 设置 为 新 的 主 服 
务 器 的 从 服务 器 。 比 如 说 ， 图 16-26 就 展示 了 被 领头 Sentinel 设 置 为 从 服 
务 嚣 之后， 服务器 server1 的 样子 。 


因为 旧 的 主 服 务 器 已 经 下 线 ， 所 以 这 种 设置 是 保存 在 server1 对 应 的 
实例 结构 里 面 的 ， 当 server1 重 新 上 线 时 ，Sentinel 就 会 向 它 发 送 
SLAVEOF 命 令 ， 让 它 成 为 server2 的 从 服务 器 。 


例如 ， 图 16-27 束 展示 了 serverl 和 草 新 上 线 并 成 为 server2 的 从 服务 器 
的 例子 。 


Sentinel 系 统 
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图 16-26 ”serverl 被 设置 为 新 主 服务 器 的 从 服务 器 


> 


图 16-27 ”serverl 香 新 上 线 并 成 为 Server2 的 从 服务 器 





16.10 重点 回顾 


Sentinel 只 是 一 个 运行 在 特殊 模式 下 的 Redis 服 务 器 ， 它 使 用 了 和 普 
通 模式 不 同 的 命令 表 ， 所 以 Sentinel 模 式 能 够 使 用 的 命令 和 普通 Redis 服 
务 吉 能 够 使 用 的 命令 不 同 。 


'Sentinel 会 该 入 用 户 指 定 的 配置 文件 ， 为 每 个 要 被 监视 的 主 服 务 咒 
创建 相应 的 实例 结构 ， 并 创建 连 癌 主 服务 占 的 命令 连接 和 订阅 连接 ， 其 
A 0 0 0 而 订阅 连接 则 用 于 接收 指定 
频道 的 消 妃 。 


-Sentinel 通 过 向 主 服务 器 发 送 INFO 命 令 来 获得 主 服 务 器 属 下 所 有 从 
服务 器 的 地 址 信息 ， 并 为 这 些 从 服务 器 创建 相应 的 实例 结构 ， 以 及 连同 
这 些 从 服务 器 的 命令 连接 和 订阅 连接 。 


:在 一 般 情 况 下 ，Sentinel 以 每 十 秒 一 次 的 频率 同 被 监视 的 主 服务 器 
和 从 服务 器 发 送 INFO 命 令 ， 当 主 服务 器 处 于 下 线 状态 ， 或 者 Sentinel 下 
在 对 主 服务 器 进行 故障 转移 操作 时 ，Sentinel 回 从 服务 器 发 送 INFO 命 令 
的 频率 会 改 为 每 秒 一 次 。 


.对 于 监视 同一 个 主 服务 器 和 从 服务 器 的 多 个 Sentinel 来 说 ， 它 们 会 
以 每 两 秒 一 次 的 频率 ， 通 过 同 被 监视 服务 器 的 __sentinel _:hello 频 道 发 
送 消息 来 向 其 他 Sentinel 宣 告 自己 的 存在 。 


:每 个 Sentinel 也 会 从 ”sentinel :hello 频 道中 接收 其 他 Sentinel 发 来 
的 信息 ， 并 根据 这 些 信息 为 其 他 Sentinel 创 建 相应 的 实例 结构 ， 以 及 命 
令 连 接 。 

“Sentinel 只 会 与 主 服务 器 和 从 服务 器 创建 命令 连接 和 订阅 连接 ， 
Sentinel 与 Sentinel 之 间 则 只 创建 命令 连接 。 

Sentinel 以 每 秒 一 次 的 频率 问 实 例 ( 包 括 主 服务 器 、 从 服务 器 、 其 
他 Sentinel) 发 送 PING 命 令 ， 并 根据 实例 对 PING 命 令 的 回复 来 判断 实例 
是 否 在 线 ， 当 一 个 实例 在 指定 的 时 长 中 连续 癌 Sentinel 发 送 无 效 回复 
时 ，Sentinel 会 将 这 个 实例 判断 为 主观 下 线 。 


当 Sentinel 将 一 个 主 服 务 器 判断 为 主观 下 线 时 ， 它 会 癌 同 样 监视 这 








个 主 服务 器 的 其 他 Sentinel 进 行 询问 ， 看 它们 是 否 同 意 这 个 主 服 务 右 已 
经 进入 主观 下 线 状 态 。 


当 Sentinel 收 集 到 足够 多 的 主观 下 线 投票 之 后 ， 它 会 将 主 服务 器 判 
上 条 为 客观 下 线 ， 并 发 起 一 次 针对 主 服务 器 的 故 隐 转移 操作 。 


16.11 参考 资料 


Sentinel 系 统 选 举 领头 Sentinel 的 方法 是 对 Raft 算 法 的 领头 选举 方法 
的 实现 ， 关 于 这 一 方法 的 详细 信息 可 以 观看 Raft 算 法 的 作者 录制 的 “Raft 
教程 ”视频 : http://V.youku.com/v_show/id_XNjQxOTk5MTk2.html， 或 者 
Raft 算 法 的 论文 。 


第 17 章 ”集群 
Redis 集 群 是 Redis 提 供 的 分 布 式 数据 库 方案 ， 集 群 通过 分 片 
Csharding) 来 进行 数据 共享 ， 并 提供 复制 和 故障 转移 功能 。 


本 节 将 对 集群 的 节 氮 、 槽 指派、 命令 执行 、 重 新 分 片 、 转 癌 、 故 障 
转移 、 消 息 等 各 个 方面 进行 介绍 。 








7 局 


一 个 Redis 集 群 通常 由 多 个 节点 (node) 组 成 ， 在 刚 开 始 的 时 候 ， 
每 个 节点 都 是 相互 独立 的 ， 它 们 都 处 于 一 个 只 包含 自己 的 集群 当中 ， 要 
组 建 一 个 真正 可 工作 的 集群 ， 我 们 必须 将 各 个 独立 的 节点 连接 起 来 ， 构 
成 一 个 包含 多 个 布点 的 集群 。 


连接 各 个 节点 的 工作 可 以 使 用 CLUSTER MEET 命 令 来 完成 ， 该 命 
令 的 格式 如 下 : 














CLUSTER MEET <ip> <port> 





同一 个 节点 node 发 送 CLUSTER MEET 命 令 ， 可 以 让 node 节 点 与 让 和 
port 所 指定 的 节点 进行 握手 (handshake) ， 当 握手 成 功 时 ，node 节 点 就 
会 将 和 port 所 指定 的 节点 添加 到 node 节 点 当前 所 在 的 集群 中 。 


举 个 例子 ， 假 设 现在 有 三 个 独立 的 节点 127.0.0.1:7000、 
127.0.0.1:7001、127.0.0.1:7002〈 下 文 省 略 卫 地址 ， 直 接 使 用 端口 号 来 区 
分 各 个 节点 ) ， 我 们 首先 使 用 客户 端 连 上 节点 7000， 通 过 发 送 
CLUSTER NODE 命 令 可 以 独到， 集群 目 前 只 包含 7000 自 己 一 个 节点 ; 





$ redis-cli -c 
127.0.0.1:7000> CLUSTER NODES 
51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master - 0 0 0 connected 





通过 同 节 点 7000 发 送 以 下 命令 ， 我 们 可 以 将 节点 7001 添 加 到 市 点 
7000 所 在 的 集群 里 面 : 





127.0.0:1:7060> CLUSTER MEET 127.0:9.1 7881 
OK 


127.0.0.1:7000> CLUSTER NODES 
68eef66df23420a5862208ef5b1a7005b806f2ff 127.0.0.1:7001 master - 0 1388204746210 0 connected 
51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master - 0 0 0 connected 





续 问 节点 7000 发 送 以 下 命令 ， 我 们 可 以 将 节点 7002 也 添加 到 节点 
是 





127.0.0.1:7000> CLUSTER MEET 127.0.0.1 7002 
OK 


127.0.0.1:7000> CLUSTER NODES 

68eef66df23420a5862208ef5b1a7005b806f2ff 127.0.0.1:7001 master - 0 1388204848376 0 connected 
9dfb4c4e016e627d9769e4c9bb0d4fa208e65c26 127.0.0.1:7002 master - 0 1388204847977 0 connected 
51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master - 0 0 0 connected 





现在 ， 这 个 集群 里 面包 含 了 7000、7001 和 7002 三 个 节点 ， 图 17-1 至 
17-5 展 示 了 这 三 个 节点 进行 握手 的 整个 过 程 。 


集群 || 集群 1| 集群 


图 17-2 ”节点 7000 和 7001 进 行 握 手 





L 
图 17-4 ”节点 7000 与 节点 7002 进 行 握手 


图 17-5 “握手 成 功 的 三 个 节点 处 于 同一 个 集群 
本 节 接 下 来 的 内 容 将 介绍 启动 节点 的 方法 、 与 集群 有 关 的 数据 结 
构 ， 以 及 CLUSTER MEET 命 令 的 实现 原理 。 
17.1.1， 户 动 节 启 


一 个 节点 就 是 一 个 运行 在 集群 模式 下 的 Redis 服 务 器 ，Redis 服 务 器 
在 启动 时 会 根据 cluster-enabled 配 置 选 项 是 否 为 yes 来 决定 是 否 开启 服务 
器 的 集群 模式 ， 如 图 17-6 所 示 。 


局 动 服务 器 


cluster-enabled 
选项 的 值 为 yes ? 
是 
开局 服务 器 的 集群 模式 开局 服务 器 的 单机 (stand alone) 模式 
成 为 一 个 节操 成 为 一 个 普通 Redis 服务 器 

图 17-6 ”服务 器 判断 是 否 开启 集群 模式 的 过 程 



























节点 《运行 在 集群 模式 下 的 Redis 服 务 器 ) 会 继续 使 用 所 有 在 单机 
模式 中 使 用 的 服务 器 组 件 ， 比 如 说 : 


市 点 会 继续 使 用 文件 事件 处 理 器 来 处 理 命令 请 求 和 返回 命令 回 
复 。 


:节点 会 继续 使 用 时 间 事 件 处 理 器 来 执行 serverCron 函 数 ， 而 
serverCron 国 数 又 会 调用 集群 模式 特有 的 clusterCron 函 数 。clusterCron 函 
数 负 责 执行 在 集群 模式 下 需要 执行 的 常规 操作 ， 例 如 同 集群 中 的 其 他 节 
点 发 送 Gossip 消 息 ， 检 查 节 点 是 否 断 线 ， 或 者 检查 是 否 需 要 对 下 线 节 点 
进行 目 动 故障 转移 等 。 


市 扩 会 继续 使 用 数据 库 来 保存 键 值 对 数据 ， 键 值 对 依然 会 是 各 种 
不 同类 型 的 对 象 。 


Pe i RDB 持 久 化 模块 和 AOF 持 久 化 模块 来 执行 持久 化 
Es 


市 扩 会 继续 使 用 及 布 与 订阅 模块 来 执行 PUBLISH、SUBSCRIBE 等 























继续 使 用 复制 模块 来 进行 节点 的 复制 工作 。 
节点 会 继续 使 用 Lua 脚 本 环境 来 执行 客户 端 输 入 的 Lua 脚 本 。 


除 此 之 外 ， 节 点 会 继续 使 用 redisServer 结 构 来 保存 服务 器 的 状态 ， 
使 用 redisClient 结 构 来 保存 客户 端的 状态 ， 至 于 那些 只 有 在 集群 模式 下 
才 会 用 到 的 数据 ， 节 点 将 它们 保存 到 了 cluster.h/clusterNode 结 构 、 
cluster.h/clusterLink 结 构 ， 以 及 cluster.h/clusterState 结 构 里 面 ， 接 下 来 的 
一 节 将 对 这 三 种 数据 结构 进行 介绍 。 


17.1.2 ”集群 数据 结构 


clusterNode 结 构 保 存 了 一 个 节点 的 当前 状态 ， 比 如 节点 的 创建 时 
闻 、 节 点 的 名 字 、 节 点 当前 的 配置 纪元 、 节 点 的 卫 地 址 和 端口 号 等 等 。 


每 个 节点 都 会 使 用 一 个 clusterNode 结 构 来 记录 自己 的 状态 ， 并 为 集 
群 中 的 所 有 其 他 市 点 (包括 主 节点 和 从 市 点 ) 都 创建 一 个 相应 的 


二 
-节点 
二 














clusterNode 结 构 ， 以 此 来 记录 其 他 节点 的 状态 : 





Struct ClusterNode { 


Ff 
创建 节点 的 时 间 
mstime_t ctime; 


字 ， 由 40 
八大 进出 学 符 组 成 


PA 
char name[REDIS_CLUSTER_NAMELEN] ; 
// 


节点 标识 
// 
各 种 不 同 的 标识 值 记录 节点 的 角色 《比如 主 节点 或 者 从 节点 ) ， 
/ 
以 及 节点 目前 所 处 的 状态 (比如 在 线 或 者 下 线 )。 
int flags; 




















登 
~ 














// 
节点 当前 的 配 于 实现 故障 转移 
uint64_t en 








char ip[REDIS_IP_STR_LEN]; 
// 


节点 的 端口 号 
int port 
7ZA 


保存 连接 节点 所 需 的 有 关 信息 
clusterLink *1link; 
EE en 


}; 





clusterNode 结 构 的 link 属 性 是 一 个 clusterLink 结 构 ， 该 结构 保存 了 连 
8 点 所 需 的 有 关 信 息 ， 比 如 套 接 字 描 述 符 ， 输 入 缓冲 区 和 输出 绥 冲 
X.: 








typedef struct clusterLink { 
// 
连接 的 创建 时 间 
mstime_t ctime; 
HOR 
套 接 字 描述 符 
nt fd; 
丰 绥 溃 区 ， 保 存 着 等 待 发 送 给 其 他 节点 的 消息 (message 
sds sndbuf; 


输 KO 区 ， 保存 着 从 其 他 节点 接收 到 的 消息 。 
sds rcvbu 








与 这 个 连接 相关 联 的 节点 ， EE 
struct clusterNode *node 
} clusterLink; 





redisClient 结 构 和 clusterLink 结 构 的 相同 和 不 同 之 处 





redisClient 结 构 和 clusterLink 结 构 都 有 自己 的 套 接 字 摘 述 符 和 输 
入 、 输 出 缓冲 区 ， 这 两 个 再 构 的 区 别 在 于 ，redisClient 结 构 中 的 套 
接 字 和 缓冲 区 是 用 于 连接 客户 端的 ， 而 clusterLink 结 构 中 的 套 接 字 





和 缓冲 区 则 是 用 于 连接 节点 的 。 





最 后 ， 每 个 节点 都 保存 着 一 个 clusterState 结 构 ， 这 个 结构 记录 了 在 
当前 节点 的 视角 下 ， 集 群 目 前 所 处 的 状态 ， 例 如 集群 是 在 线 还 是 下 线 ， 
集群 包含 多 少 个 市 皮 ， 集 群 当 前 的 配置 纪元 ， 诸 如 此 类 : 





typedef struct clusterState { 


指向 当前 节点 的 指针 
clusterNode *myself; 




















// 
二 群 当前 的 配置 纪元 ， 用 于 实现 故障 转移 
uint6 tEpoch; 


外 
Ei¥ 
集群 当前 的 状态 : 是 在 线 还 是 下 线 
int state; 
基 
外 





这 
博 群 中 至 少 处 理 着 一 个 槽 的 节点 的 数量 
Jnt SEE 








Kf 
集群 节点 名 单 ( 包 括 myself 
和 点) 


节点 
// 
字典 的 键 为 节点 的 名 字 ， 字 典 的 值 为 节点 对 应 的 clusterNode 
结构 
dict *nodes; 


Fv gs 
} clusterState ' 





以 前 面 介绍 的 7000、7001、7002 三 个 节点 为 例 ， 图 17-7 展 示 了 节点 
7000 创 建 的 clusterState 结 构 ， 这 个 结构 从 节点 7000 的 角度 记录 了 集群 以 
及 集群 包含 的 三 个 节点 的 当前 状态 (为 了 空间 考虑 ， 图 中 省 略 了 
clusterNode 结 构 的 一 部 分 属性 ) : 


:结构 的 currentEpoch 属 性 的 值 为 0%， 表 示 和 集群 当前 的 配置 纪元 为 0。 


:结构 的 size 属 性 的 值 为 0， 表 示 和 集群 目前 没有 任何 节点 在 处 理 槽 ， 
因此 结构 的 state 属 性 的 值 为 REDIS_CLUSTER_FAIL， 这 表示 和 集群 目前 
处 于 下 线 状态 。 


-结构 的 nodes 字 — 典 记录 了 集群 目前 包含 的 三 个 节点 ， 这 三 个 节点 分 
别 由 三 个 clusterNode 结 构 表 示 ， 其 中 myself 指 针 指 同 代表 节点 7000 的 
clusterNode 结 构 ， 而 字典 中 的 另外 两 个 指针 则 分 别 指 癌 代表 节点 7001 和 
代表 节点 7002 的 clusterNode 结 构 ， 这 两 个 市 点 是 节点 7000 已 知 的 在 集群 
中 的 其 他 节点 。 


:三 个 节点 的 clusterNode 结 构 的 flags 属 性 都 是 
REDIS_NODE_MASTER， 说 明 三 个 节点 都 是 主 节点 。 





节点 7001 和 节点 7002 也 会 创建 类 似 的 dusterState 结 构 : 


:不 过 在 节点 7001 创 建 的 clusterState 结 构 中 ，myself 指 针 将 指向 代表 


节点 7001 的 clusterNode 结 构 ， 而 节点 7000 和 节点 7002 则 是 集群 中 的 其 他 
i 


:而 在 节点 7002 创 建 的 clusterState 结 构 中 ，myself 指 针 将 指向 代表 节 


点 7002 的 dusterNode 结 构 ， 而 节点 7000 和 节点 7001 则 是 集群 中 的 其 他 节 
点 。 


clusterState 


currentEpoch 
state 
0 
| 





Ml 和 全 人 


"68ee...f2ff" 
vodTrhs i5020" 


clusterNode 
name 
Wn 
flags 
REDIS NODE MASTER 


configEpoch 


tl ed 
port 
7000 


clusterNode 
name 
“ESE st2rtE" 
flags 
REDIS NODE MASTER 


configEpoch 


eR 
port 
7001 


clusterNode 


name 
"9dED: SC20" 


flags 
REDIS NODE MASTER 


configEpoch 


We EY 0 eh ee 
port 
7002 


图 17-7 节点 7000 创 建 的 clusterState 结 构 
17.1.3 CLUSTER MEET 命 令 的 实现 


通过 向 节点 A 发 送 CLUSTER MEET 命 令 ， 客 户 端 可 以 让 接收 命令 的 
节点 A 将 男 一 个 节点 B 添 加 到 节点 A 当前 所 在 的 集群 里 面 : 





CLUSTER MEET <ip> <port> 





收 到 命令 的 节点 A 将 与 节点 B 进 行 握 手 (handshake) ， 以 此 来 确认 
彼此 的 存在 ， 并 为 将 来 的 进一步 通信 打 好 基础 : 


1) 节点 A 会 为 节点 B 创 建 一 个 clusterNode 结 构 ， 并 将 该 结构 添加 到 
自己 的 clusterState.nodes 字 上 典 里 面 。 











2) 之 后 ， 节 点 A 将 根据 CLUSTER MEET 命 令 给 定 的 耳 地 址 和 端口 
号 ， 辐 节点 B 发 送 一 条 MEET 消 息 (message) 。 


3) 如 果 一 切 顺 利 ， 节 点 B 将 接收 到 节点 A 发 送 的 MEET 消 息 ， 节 点 
B 会 为 节点 A 创建 一 个 ClusterNodel 吉 构 ， 并 将 该 结构 添加 到 自己 的 
clusterState.nodes 字 典 里 面 。 


4) 之 后 ， 节 点 B 将 向 节点 A 返 回 一 条 PONG 消 息 。 


5) 如 果 一 切 顺 利 ， 看 点 A 将 接收 到 三 点 B 返 回 的 PONG 消 息 ， 通 过 
a 息 节 点 A 可 以 知道 道 节 点 B 已 经 成 功 地 接收 到 了 自己 发 送 的 
MEET 准 





6) 之 后 ， 节 点 A 将 同 节 点 B 返 回 一 条 PING 消 息 。 


7) 如 果 一 切 顺 利 ， 市 市 太 B 将 接收 到 市 点 A 返回 的 PING 消 息 ， 
这 条 PING 消 息 节 点 B 可 以 知道 节点 A 已 经 成 功 地 接收 到 了 自己 返 
PONG 消 息 握手 完成 。 


图 17-8 展 示 了 以 上 步骤 描述 的 握手 过 程 。 














发 送 命令 
CLUSTER MEET 
<B Tp> <B POort> 






发 送 MEET 消息 


返回 PONG 消息 


返回 PING 消息 


之 法 硒 


图 17-8 ”市 反 的 握手 过 程 





之 后 ， 节 点 A 会 将 节点 B 的 信息 通过 Gossip 协 议 传 播 给 集群 中 的 其 他 
亨 把， 让 其 他 节 反 也 与 节 扩 B 进 行 握手 ， 最 终 ， 经 过 一 段 时 间 之 后 ， 市 
扩 B 会 被 集群 中 的 所 有 节操 认 识 。 





17.2 ” 槽 指派 


Redis 集 群 通过 分 片 的 方式 来 保存 数据 库 中 的 键 值 对 : 集群 的 整个 
数据 库 被 分 为 16384 个 权 (slot) ， 数 据 库 中 的 每 个 键 都 属于 这 16384 个 
槽 的 其 中 一 个 ， 集 群 中 的 每 个 节点 可 以 处 理 0 个 或 最 多 16384 个 槽 。 


当 数 据 库 中 的 16384 个 槽 都 有 节点 在 处 理 时 ， 和 集群 处 于 上 线 状 态 
(ok) ; 相反 地 ， 如 果 数 据 库 中 有 任何 一 个 槽 没有 得 到 处 理 ， 那 么 集群 
处 于 下 线 状 态 〈fail) 。 


在 上 一 节 ， 我 们 使 用 CLUSTER MEET 命 令 将 7000、7001、7002 三 
个 节点 连接 到 了 同一 个 集群 里 面 ， 不 过 这 个 集群 目前 仍然 处 于 下 线 状 
态 ， 因 为 集群 中 的 三 个 节点 都 没有 在 处 理 任何 槽 : 





127.0.0.1:7000> CLUSTER INFO 
cluster state:fail 
cluster_slots _assigned:0 
cluster_slots_ok:0 
cluster_slots_pfail:0 
cluster_slots_fail:0 
cluster_known_nodes:3 
cluster_size:0 
cluster_current_epoch:0 
cluster_stats_messages_sent:110 
cluster_stats_ messages_received:28 





通过 向 节点 发 送 CLUSTER ADDSLOTS 命 令 ， 我 们 可 以 将 一 个 或 多 
个 槽 指派 (assign) 给 节点 负责 : 





CLUSTER ADDSLOTS <slot> [slot ...] 





举 个 例子 ， 执 行 以 下 命令 可 以 将 槽 0 至 槽 5000 指 派 给 节点 7000 负 


潍 





127.0.0.1:7000> CLUSTER ADDSLOTS 0 1 234... 5000 
OK 


127.0.0.1:7000> CLUSTER NODES 

9dfb4c4e016e627d9769e4c9bb0d4fa208e65c26 127.0.0.1:7002 master - 0 1388316664849 0 connected 
68eef66df23420a5862208ef5b1a7005b806f2ff 127.0.0.1:7001 master - 0 1388316665850 0 connected 
51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master - 0 0 0 connected 0-5000 





为 了 让 7000、7001、7002 三 个 节点 所 在 的 集群 进入 上 线 状态 ， 我 们 
继续 执行 以 下 命令 ， 将 槽 5001 至 槽 10000 指 派 给 节点 7001 负 责 : 





127.0.0.1:7001> CLUSTER ADDSLOTS 5001 5002 5003 5004 ... 10000 
OK 





然后 将 槽 10001 至 槽 16383 指 派 给 7002 负 责 : 





127.0.0.1:7002> CLUSTER ADDSLOTS 10001 10002 10003 10004 ... 16383 
OK 





当 以 上 三 个 CLUSTER ADDSLOTS 命 令 都 执行 完毕 之 后 ， 数 据 库 中 
的 16384 个 槽 都 已 经 被 指派 给 了 相应 的 节点 ， 集 群 进入 上 线 状态 : 





127.0.0.1:7000> CLUSTER INFO 

cluster_state:ok 

cluster_slots 0s ne 16384 

cluster_slots_ok:1 

cluster_slots 二 中 人 

cluster slots fail:g 

cluster_known_nodes:3 

cluster_size:3 

cluster_current_epoch:0 

cluster_stats_messages_sent:2699 

cluster_stats_messages_received:2617 

127.0.0.1:7000> CLUSTER NODES 

9dfb4c4e016e627d9769e4c9bb0d4fa208e65c26 127.0.0.1:7002 master - 0 1388317426165 0 connected 10001-16383 
68eef66df23420a5862208ef5b1a7005b806f2ff 127.0.0.1:7001 master - 0 1388317427167 0 connected 5001-10000 
51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master - 0 0 0 connected 0-5000 





本 节 接 下 来 的 内 容 将 首先 介绍 节点 保存 槽 指派 信息 的 方法 ， 以 及 节 
点 之 间 传 播 模 指派 信息 的 方法 ， 之 后 再 介 绍 CLUSTER ADDSLOTS 命 令 
的 实现 。 


172.1 记录 太 友 的 档 指 派 信息 


clusterNode 结 构 的 slots 属 性 和 numslot 属 性 记录 了 节点 负责 处 理 哪些 
槽 : 





struct clusterNode { 
了 


unsigned char Slots[16384/8] ; 
int numslots; 
BE 





slots 属 性 是 一 个 二 进 制 位 数组 (bit array) ， 这 个 数组 的 长 度 为 
16384/8=2048 个 字 节 ， 共 包含 16384 个 二 进 制 位 。 


Redis 以 0 为 起 始 索 引 ，16383 为 终止 索引 ， 对 slots 数 组 中 的 16384 个 


二 进 制 位 进行 编号 ， 并 根据 索引 i 上 的 二 进 制 位 的 值 来 判断 节点 是 否 负 
责 处 理 槽 i: 


人 那么 表示 节点 负责 处 
理 时 1。 

.如果 slots 数 组 在 索引 ij 上 的 二 进 制 位 的 值 为 0， 那 么 表示 节点 不 负责 
处 理 横 i。 


图 17-9 展 示 了 一 个 slots 数 组 示例 : 这 个 数组 索引 0 至 索引 7 上 的 二 进 
人 
0 至 槽 7。 








2 


slots[0] Slots[1] ~ slots[2047] 


oanuundnaarnr yy 





全 | 中 ULololololoelLo To ea 
图 17-9 “一 个 slots 数 组 示例 
图 17-10 展 示 了 男 一 个 slots 数 组 示例 : 这 个 数组 索引 1、3、5、8、 
9、10 上 的 二 进 制 位 的 值 都 为 1， 而 其 余 所 有 二 进 制 位 的 值 都 为 0， 这 表 
示 节 点 负责 处 理 槽 1、3、5、8、9、10。 
| slotsl0] | slts |*| slots[2047] | 
加 N000900000n0nnnenrry 





ooonoorrnduuuunnnny 


图 17-10” 男 一 个 slots 数 组 示例 


因为 取出 和 设置 slots 数 组 中 的 任意 一 个 二 进 制 位 的 值 的 复杂 度 仅 为 





O (1) ， 所 以 对 于 一 个 给 定 节点 的 slots 数 组 来 说 ， 程 序 检查 节点 是 否 负 
责 处 理 某 个 槽 ， 又 或 者 将 某 个 覃 指派 给 节点 负责 ， 这 两 个 动作 的 复杂 度 
都 是 O (1) 。 


至 于 numslots 属 性 则 记录 节点 负责 处 理 的 槽 的 数量 ， 也 即 是 slots 数 
组 中 值 为 1 的 二 进 制 位 的 数量 。 





比如 说 ， 对 于 图 17-9 所 示 的 slots 数 组 来 说 ， 节 点 处 理 的 槽 数量 为 8， 
而 对 于 图 17-10 所 示 的 slots 数 组 来 说 ， 节 点 处 理 的 槽 数量 为 6。 


17.2.2 ”传播 节点 的 槽 指派 信息 


一 个 节点 除了 会 将 日 己 负责 处理 的 模 记 录 在 clusterNode 结 构 的 slots 
属性 和 numslots 属 性 之 外 ， 它 还 会 将 自己 的 0 居 发 送 给 集 
群 中 的 其 他 节点 ， 以 此 来 告知 其 他 节点 自己 目前 负责 处 理 哪些 槽 。 


举 个 例子 ， 对 于 前 面 展 示 的 包含 7000、7001、7002 三 个 节点 的 集群 
来 说 : 

“市 节点 7000 会 通过 消息 同 节 点 7002 发 送 自己 的 slots 数 组 ， 
以 此 来 告知 这 两 个 节点 ， 自 己 负 责 处 理 模 0 至 槽 5000， 如 图 17-11 所 示 。 


-节点 7001 会 通过 消息 向 节点 7000 和 节点 7002 发 送 自己 的 slots 数 组 ， 
以 此 来 告知 这 两 个 节点 ， 自 己 负责 处 理 槽 5001 至 槽 10000， 如 图 17-12 所 
示 。 





节 0 消息 向 节点 7000 和 节点 7001 发 送 自己 的 slots 数 组 ， 
以 此 来 告知 这 两 个 节点 ， 自 己 负责 处 理 槽 10001 至 槽 16383， 如 网 17-13 
所 示 。 


| | 
| 槽 0 至 槽 5000 
i Se | 
| 看 | 
| | 
j | 
| | 


我 负责 处 理 
槽 0 至 模 5000 


Ec 
[= 


图 17-11 7000 告 知 7001 和 7002 自 己 负 责 处 理 的 槽 


| 

| 

| 

| ” 我 负责 处 理  、 我 负责 处 理 

| ， 槽 5001 至 槽 10000， 槽 5001 至 槽 10000 
| 

| 

| 


图 17-12 7001 告知 7000 和 7002 自 己 负责 处 理 的 覃 


”我 负责 处 理 我 负责 处 理 


. 槽 10001 至 槽 16383 ” 槽 10001 至 槽 16383 


图 17-13 “ 7002 告知 7000 和 7001 自 己 负责 处 理 的 覃 


当 节 点 A 通 过 消息 从 节点 B 那 里 接收 到 节点 B 的 slots 数 组 时 ， 节 点 A 
会 在 目 己 的 clusterState.nodes 字 典 中 查找 节点 B 对 应 的 clusterNode 结 构 ， 
并 对 结构 中 的 slots 数 组 进行 保存 或 者 更 新 。 


因为 集群 中 的 每 个 节点 都 会 将 自己 的 slots 数 组 通过 消息 发 送 给 集群 
中 的 其 他 节点 ， 并 且 每 个 接收 到 slots 数 组 的 节点 都 会 将 数组 保存 到 相应 


市 反 的 dusterNode 结 构 里 面 ， 因 此 ， 集 群 中 的 每 个 市 点 都 会 知道 数据 库 
中 的 16384 个 槽 分 别 被 指派 给 了 集群 中 的 哪些 节点 。 


17.2.3 ”记录 集群 所 有 覃 的 指派 信息 
clusterState 结 构 中 的 slots 数 组 记录 了 集群 中 所 有 16384 个 槽 的 指派 信 





亚 





typedef struct clusterState { 
PE xh 
clusterNode *slots[16384]; 


} clusterState; 





slots 数 组 包含 16384 个 项 ， 每 个 数组 项 都 是 一 个 指 癌 clusterNode 结 构 
的 指针 : 


如 果 slots[j 指 针 指 向 NULL， 那 么 表示 权 i 尚 未 指派 给 任何 市 上 。 


.如 果 slots[ 订 指针 指向 一 个 clusterNode 结 构 ， 那 么 表示 模 记 经 指派 
给 了 clusterNode 结 构 所 代表 的 节点 。 


举 个 例子 ， 对 于 7000、7001、7002 三 个 节点 来 说 ， 它 们 的 
clusterState 结 构 的 slots 数 组 将 会 是 图 17-14 所 示 的 样子 : 


.数组 项 slots[0] 至 slots[5000] 的 指针 都 指向 代表 节点 7000 的 
clusterNode 结 构 ， 表 示 模 0 至 5000 都 指派 给 了 节点 7000。 


.数组 项 slots[5001] 至 slots[10000] 的 指针 都 指向 代表 节点 7001 的 
clusterNode 结 构 ， 表 示 模 5001 至 10000 都 指派 给 了 节点 7001。 


:数组 项 slots[10001] 至 slots[16383] 的 指针 都 指向 代表 节点 7002 的 
clusterNode 结 构 ， 表 示 模 10001 至 16383 都 指派 给 了 节点 7002。 


如 果 只 将 槽 指派 信息 保存 在 各 个 节点 的 clusterNode.slots 数 组 里 ， 会 
出 现 一 些 无 法 高 效 地 解决 的 问题 ， 而 clusterState.slots 数 组 的 存在 解决 了 


这 些 问题 : 


:如 果 节 点 只 使 用 clusterNode.slots 数 组 来 记录 槽 的 指派 信息 ， 那 么 
为 了 知道 槽 是否 已 经 被 指派 ， 或 者 槽 被 指派 给 了 哪个 节点 ， 程 序 需 要 














遍历 clusterState.nodes 字 典 中 的 所 有 clusterNode 结 构 ， 检 查 这 些 结构 的 
slots 数 组 ， 直 到 找到 负责 处 理 模 i 的 节点 为 止 ， 这 个 过 程 的 复杂 度 为 
O(N) ， 其 中 NN 为 clusterState.nodes 字 — 典 保存 的 clusterNode 结 构 的 数 
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图 17-14 _ clusterState 结 构 的 Slots 数 组 


:而 通过 将 所 有 槽 的 指派 信息 保存 在 clusterState.slots 数 组 里 面 ， 程 序 
要 检查 权 i 是 否 已 经 被 指派 ， 又 或 者 取得 负责 处 理 槽 i 的 节点 ， 只 需要 访 


问 clusterState.slots[ 订 的 值 即 可 ， 这 个 操作 的 复杂 上 度 仪 为 O (1) 。 





举 个 例子 ， 对 于 图 17-14 所 示 的 slots 数 组 来 说 ， 如 果 程 序 需要 知道 模 
10002 被 指派 给 了 哪个 节点 ， 那 么 只 要 访问 数组 项 slots[10002]， 就 可 以 
马上 知道 槽 10002 被 指派 给 了 节点 7002， 如 图 17-15 所 示 。 


ClLusterState 





clusterNode 


ip 
"127.0.0.1" 


port 


7002 


图 17-15 ”访问 slots[10002] 的 值 


要 说 明 的 一 点 是 ， 虽 然 clusterState.slots 数 组 记录 了 集群 中 所 有 覃 的 
指派 信息 ， 但 使 用 dusterNode 结 构 的 slots 数 组 来 记录 单个 节点 的 横 指 派 
信息 仍然 是 有 必要 的 : 





:因为 当 程 序 需要 将 某 个 节点 的 槽 指派 信息 通过 消 明 发 送 给 其 他 节 
点 时 ， 程 序 只 需要 将 相应 节点 的 clusterNode.slots 数 组 整个 发 送出 去 就 可 
以 了 。 


. 另 一 方面 ， 如 果 Redis 不 使 用 clusterNode.slots 数 组 ， 而 单独 使 用 
clusterState.slots 数 组 的 话 ， 那 么 每 次 要 将 节点 A 的 槽 指派 信 息 传 播 给 其 


一 口 


他 节点 时 ， 程 序 必 须 先 遍历 整个 clusterState.slots 数 组 ， 记 录 节 点 A 负 责 
处 理 哪些 槽 ， 然 后 才能 发 送 节 点 A 的 槽 指派 信息 ， 这 比 直 接 发 送 
clusterNode.slots 数 组 要 麻烦 和 低 效 得 多 。 


clusterState.slots 数 组 记录 了 集群 中 所 有 覃 的 指派 信息 ， 而 
clusterNode.slots 数 组 只 记录 了 clusterNode 结 构 所 代表 的 节点 的 模 指 派 信 
妃 ， 这 是 两 个 slots 数 组 的 关键 区 别 所 在 。 

17.2.4 CLUSTER ADDSLOTS 命 令 的 实现 


CLUSTER ADDSLOTS 命 令 接受 一 个 或 多 个 槽 作为 参数 ， 并 将 所 有 
输入 的 模 指 派 给 接收 该 命令 的 节点 负责 : 





CLUSTER ADDSLOTS <slot> [slot ...] 





CLUSTER ADDSLOTS 命 令 的 实现 可 以 用 以 下 伪 代 码 来 表示 : 





def CLUSTER_ADDSLOTS(*all_input_slots) : 


遍历 所 有 输入 槽 ， 检 查 它 们 是 否 都 是 未 指派 模 
r i in all _ input_slots : 


# 
如 果 有 哪怕 一 个 槽 已 经 被 指派 给 了 某 个 节点 
# 


那么 向 客户 端 返回 错误 ， 并 终止 命令 执行 
if clusterState.slots[i] != NULL: 





reply_error() 
return 
# 
如 果 所 有 输入 槽 都 是 未 指派 模 
# 
那么 再 次 遍历 所 有 输入 槽 ， 将 这 些 模 指派 给 当前 节点 
for i in all input_slots: 


# 
设置 clusterSstate 
结构 的 slots 

数组 


将 slots[i] 
| 节点 的 clusterNode 
结构 
clusterState.slots[i] = clusterState.myself 
访问 代表 当前 节点 的 clusterNode 
结构 的 slots 
数组 
# 
将 数组 在 索引 i 
上 的 三 进 制 位 设置 为 1 
setSlotBit(clusterState.myself.slots, i) 





举 个 例子 ， 图 17-16 展 示 了 一 个 节点 的 clusterState 结 构 ， 
clusterState.slots 数 组 中 的 所 有 指针 都 指 同 NULL， 并 且 clusterNode.slots 
数组 中 的 所 有 二 进 制 位 的 值 都 是 0， 这 说 明 当 前 节点 没有 被 指派 任何 
槽 ， 并 且 集 群 中 的 所 有 覃 都 是 未 指派 的 。 


ClusterState clusterNode 





NULL 


图 17-16 ”节点 的 clusterState 结 构 
当 客 户 端 对 17-16 所 示 的 节点 执行 命令 : 





CLUSTER ADDSLOTS 1 2 





将 槽 1 和 槽 2 指派 给 节点 之 后 ， 节 点 的 clusterState 结 构 将 被 更 新 成 图 
17-17 所 示 的 样子 : 


ClusterState.slots 数 组 在 索引 1 和 索引 2 上 的 指针 指 同 了 代表 当前 节点 
的 clusterNode 结 构 。 


并且 clusterNode.slots 数 组 在 索引 1 和 索引 2 上 的 位 被 设置 成 了 1。 








clusterstate 





图 17-17 执行 CLUSTER ADDSLOTS 命 令 之 后 的 clusterState 结 构 


最 后 ， 在 CLUSTER ADDSLOTS 命 令 执 行 完毕 之 后 ， 节 点 会 通过 发 
送 消 息 告 知 集群 中 的 其 他 节点 ， 自 己 目 前 正在 负责 处 理 哪些 槽 。 


17.3 在 集群 中 执行 命令 
在 对 数据 库 中 的 16384 个 覃 都 进行 了 指派 之 后 ， 集 群 就 会 进入 上 线 
状态 ， 这 时 客户 端 就 可 以 同 集 群 中 的 节点 发 送 数据 命令 了 。 
当 客 户 端 同 节 点 发 送 与 数据 库 键 有 关 的 命令 时 ， 接 收 命令 的 节点 会 
a 
己 : 
:如 果 键 所 在 的 槽 正好 就 指派 给 了 当前 节点 ， 那 么 市 点 直接 执行 这 
个 命令 。 
:如果 键 所 在 的 槽 并 没有 指派 给 当前 节点 ， 那 么 节点 会 向 客户 端 返 
回 一 个 MOVED 错 误 ， 指 引 客户 端 转 同 (redirect) 至 正确 的 节点 ， 并 再 
次 发 送 之 前 想 要 执行 的 命令 。 


图 17-18 展 示 了 这 两 种 情况 的 判断 流程 。 








客户 端 向 节点 发 送 数据 库 键 命令 





节 所 计算 键 属 于 哪个 模 


当前 节点 就 是 
负责 处 理 键 所 在 模 的 节点 ? 









节 氮 向 客户 端 返回 一 个 
MOVED 错误 





客户 端 根据 MOVED 错误 提供 的 信息 


转 问 至 正确 的 节 斥 
图 17-18 判断 客户 端 是 否 需要 转 同 的 流程 





举 个 例子 ， 如 果 我 们 在 之 前 提 到 的 ， 由 7000、7001、7002 三 个 节点 
组 成 的 集群 中 ， 用 客户 端 连 上 节点 7000， 并 发 送 以 下 命令 ， 那 么 命令 会 
直接 被 节点 7000 执 行 : 





127.0.0.1:7000> SET date "2013-12-31" 
OK 





因为 键 date 所 在 的 槽 2022 正 是 由 节点 7000 负 责 处 理 的 。 


但 是 ， 如 果 我 们 执行 以 下 命令 ， 那 么 客户 端 会 先 被 转 癌 至 节点 
7001， 然 后 再 执行 命令 : 





127 - 9 es ee SET msg "happy new year! 
ed to Slot [6257] located at 127.0.0.1:7001 


OK 
127.0.0.1:7001> GET msg 
"happy new year!" 





这 是 因为 键 msg 所 在 的 模 6257 是 由 节点 7001 负 责 处 理 的 ， 而 不 是 由 
最 初 接收 命令 的 节点 7000 负 责 处 理 ; 


. 当 客 户 端 第 一 次 向 节点 7000 发 送 SET 命 令 的 时 候 ， 节 点 7000 会 向 客 
户 端 返 回 MOVED 错 误 ， 指 引 客 户 端 转 向 至 节点 7001。 


: 当 客 户 端 转 回 到 节点 7001 之 后 ， 客 户 端 重新 间 节 点 7001 发 送 SET 命 
令 ， 这 个 命令 会 被 节点 7001 成 功 执行 。 


本 节 接 下 来 的 内 容 将 介绍 计算 键 所 属 模 的 方法 ， 节 点 判断 某 个 覃 是 
否 由 自己 负责 的 方法 ， 以 及 MOVED 错 误 的 实现 方法 ， 最 后 ， 本 节 还 会 
介绍 节点 和 单机 Redis 服 务 器 保存 键 值 对 数据 的 相同 和 不 同 之 处 。 
17.3.1 计算 键 属于 哪个 权 


节点 使 用 以 下 算法 来 计算 给 定 键 key 属 于 哪个 模 : 











def slot_number(key) : 
return CRC16(key) & 16383 





其 中 CRC16 (key) 语句 用 于 计算 键 key 的 CRC-16 校 验 和 ， 而 





&16383 语 句 则 用 于 计算 出 一 个 介 于 0 至 16383 之 间 的 整数 作为 键 key 的 槽 


号 。 


使 用 CLUSTER KEYSLOT<key> 命 令 可 以 查看 一 个 给 定 键 属于 哪个 
槽 : 





127.0.0.1:7000> CLUSTER KEYSLOT "date" 
(integer) 2022 

127.0.0.1:7000> CLUSTER KEYSLOT "msg" 
(integer) 6257 

127.0.0.1:7000> CLUSTER KEYSLOT "name" 
(integer) 5798 

127.9.9.1:7999> CLUSTER KEYSLOT "fruits" 
(integer) 14943 





CLUSTER KEYSLOT 命 令 就 是 通过 调用 上 面 给 出 的 槽 分 配 算法 来 
实现 的 ， 以 下 是 该 命令 的 伪 代 码 实 现 : 





def CLUSTER_KEYSLOT(key) : 
# 
计算 模 号 
Slot = Slot_number(key) 


# 
将 槽 号 返回 给 客户 端 
reply_client(slot) 








17.3.2 ”判断 模 是 否 由 当前 节点 负责 处 理 


当 节 点 计算 出 键 所 属 的 模 i 之 后 ， 节 点 币 To 
clusterState.slots 数 组 中 的 项 i， 判 断 键 所 在 的 槽 是 否 由 自己 负责 : 


1) 如 果 clusterState.slots[ 计 等 于 clusterState.myself， 那 么 说 明 覃 iji 由 当 
前 节点 负责 ， 节 点 可 以 执行 客户 端 发送 的 命令 。 


2) 如 果 clusterState.slots[i] 不 等 于 clusterState.myself， 那 么 说 明 槽 i 并 
非 由 当前 节点 负责 ， 市 所 会 根据 clusterState.slots[ 订 指向 的 clusterNode 结 
构 所 记录 的 节点 了 和 端口 号 向 客户 端 返回 MOVED 错 误 ， 指 引 客 户 端 
转向 至 正在 处 理 模 ij 的 节点 。 


举 个 例子 ， 假 设 图 17-19 为 节点 7000 的 clusterState 结 构 : 
. 当 客 户 端 向 节点 7000 发 送 命令 SET date"2013-12-31" 的 时 候 ， 节 点 


首先 计算 出 键 date 属 于 档 2022， 然后 检查 得 出 clusterState.slots[2022] 等 于 
clusterState.myself， 这 说 明 覃 2022 正 是 由 节点 7000 负 贡 ， 于 是 节点 7000 














直接 执行 这 个 SET 命令 ， 并 将 结果 返回 给 发 送 命令 的 客户 端 。 


: 当 客 户 端 癌 节点 7000 发 送 命令 SET msg"happy new year! "的 时 候 ， 
节点 首先 计算 出 键 msg 属 于 槽 6257， 然 后 检查 clusterState.slots[6257] 是 否 
等 于 clusterState.myself， 结 果 发 现 两 者 并 不 相等 ， 这 说 明 模 6257 并 非 由 
节点 7000 负 责 处 理 ， 于 是 节点 7000 访 问 clusterState.slots[6257] 所 指 癌 的 
clusterNode 结 构 ， 并 根据 结构 中 记录 的 IP 地 址 127.0.0.1 和 端口 号 7001， 

向 客户 端 返回 错误 MOVED 6257 127.0.0.1:7001， 指 引 节点 转向 至 正在 负 
责 处 理 模 6257 的 节点 7001。 
















clusterState 






clusterNode* [16384] 


查找 负责 槽 2022 的 节点 -- 


查找 负责 权 6257 的 节点 -- 


图 17-19 ”节点 7000 的 clusterState 结 构 
17.3.3 MOVED 错 误 
当 节 点 发 现 键 所 在 的 权 并 非 由 自己 负责 处 理 的 时 候 ， 节 点 就 会 向 客 





户 端 返回 一 个 MOVED 错 误 ， 指 引 客户 端 转 癌 至 正在 负责 覃 的 节点 。 
MOVED 错 误 的 格式 为 : 





MOVED <slot> <ip>:<port> 





其 中 slot 为 键 所 在 的 槽 ， 而 p 和 port 则 是 负责 处 理 模 slot 的 节点 的 IP 地 
址 和 端 口号 。 例 如 错误 : 





MOVED 10086 127.0.0.1:7002 





表示 模 10086 正 由 也 地址 为 127.0.0.1， 端 口号 为 7002 的 节点 负责 。 


又 例如 错误 : 





MOVED 789 127.0.0.1:7000 





表示 村 789 正 由 也 地 址 为 127.0.0.1， 端 口号 为 7000 的 节点 负责 。 


当 客 户 端 接收 到 节点 返回 的 MOVED 错 误 时 ， 客 户 端 会 根据 
MOVED 错 误 中 提供 的 IP 地 址 和 端口 号 ， 转 向 至 负责 处 理 槽 slot 的 节点 ， 
并 癌 该 节点 重新 发 送 之 前 想 要 执行 的 命令 。 以 前 面 的 客户 端 从 节点 7000 
转向 至 7001 的 情况 作为 例子 : 








127.0.0.1:7000> SET msg "happy new year 
-> Redirected to slot [6257] located at i dg.177001 


ol 
T2700 T57001> 





图 17-20 展 示 了 客户 端 向 节点 7000 发 送 SET 命 令 ， 并 获得 MOVED 错 
误 的 过 程 。 


SET msg “happy new year!" 


客户 端 


MOVED; 29 LersDsys Lar001 








图 17-20 ”节点 7000 向 客户 端 返回 MOVED 错 误 


而 图 17-21 则 展示 了 客户 端 根据 MOVED 错 误 ， 转 向 至 节点 7001， 并 
重新 发 送 SET 命 令 的 过 程 。 


端 [ SET msg "happy new year!" | 节点 7001 


OK 
图 17-21 客户 端 根据 MOVED 错 误 的 指示 转向 至 节点 7001 


一 个 集群 铬 户 端 通 常会 与 集群 中 的 多 个 市 尺 创建 套 接 学 连 硅 接 ， 而 所 
请 的 节 扣 转 癌 实际 上 就 是 换 一 个 套 接 字 来 发 送 命令 。 


如 果 客 户 端 尚未 与 想 要 转向 的 节点 创建 套 接 字 连接 ， 那 么 客户 端 会 
先 根 据 MOVED 错 误 提 供 的 IP 地 址 和 端口 号 来 连接 节点 ， 然 后 再 进行 转 


问 。 








被 隐藏 的 MOVED 错 误 


集群 模式 的 redis-cli 客 户 端 在 接收 到 MOVED 错 误 时 ， 并 不 会 打 
印 出 MOVED 错 误 ， 而 是 根据 MOVED 错 误 自 动 进行 节点 转向 ， 并 
打印 出 转 同 信息 ， 所 以 我 们 是 看 不 见 节点 返回 的 MOVED 错 误 的 : 








redis-cli -c -p 7000 # 





集群 模式 
1 0.0. Loo SET msg "ha w yea 
Redirected to slot P2379 Ye St d at 2 0.0.1:7001 


127.0:08.1:7001 





但 是 ， 如 果 我 们 使 用 单机 Cstand alone) 模式 的 redis-cli 客 户 
端 ， 再 次 同 节 点 7000 发 送 相 同 的 命令 ， 那 么 MOVED 错 误 就 会 被 客 
户 端 打印 出 来 : 





cli -p 7000 # 
单机 站” 
127.0.0.1:7000> SET msg "happy Ww year!™" 
(error ) MOVED 6257 127.0.0.1: oo 


127.9.8.117989> 





这 是 因为 单机 模式 的 redis-cli 客 户 端 不 清楚 MOVED 错 误 的 作 
人 以 它 只 会 直接 将 MOVED 错 误 直 接 打印 出 来 ， 而 不 会 进行 自 
动 转 回 。 


17.3.4 ”节点 数据 库 的 实现 


集群 节点 保存 键 值 对 以 及 键 值 对 过 期 时 间 的 方式 ， 与 第 9 章 里 面 介 
绍 的 单机 Redis 服 务 器 保存 键 值 对 以 及 键 值 对 过 期 时 间 的 方式 完全 相 
同 。 


节点 和 单机 服务 器 在 数据 库 方面 的 一 个 区 别 是 ， 节 点 只 能 使 用 0 号 
数据 库 ， 而 单机 Redis 服 务 器 则 没有 这 一 限制 。 


举 个 例子 ， 图 17-22 展 示 了 节点 7000 的 数据 库 状 态 ， 数 据 库 中 包含 
列表 键 "lst"， 哈 希 键 "book"， 以 及 字符 串 键 "date"， 其 中 键 "lst" 和 
键 "book" 带 有 过 期 时 间 。 


另外 ， 除 了 将 键 值 对 保存 在 数据 库 里 面 之 外 ， 节 点 还 会 用 
clusterState 结 构 中 的 Slots_to_keys 跳 跃 表 来 保存 槽 和 键 之 间 的 关系 : 


typedef struct clLusterState { 


zskiplist *slots_ to_keys; 
ee 
} clusterState; 


ListObject 


Stringobject Stringobject Stringobject 
fa Ws We 


Hashobject 


Stringobject 















Strlngob]ject 
Wstr 











Strlng0bject 
"Redis in Actionn 



















"book" StringObject StringObject 
Stringobject "author" "Josiah L, Carlson" 
"date" StringObject 
"publisher" StringObject 








"Manning" 





Stringobject 
"2013-12-31" 


long long 
1385877600000 


long long 
1388556000000 


图 17-22 ”节点 7000 的 数据 库 


slots_to_keys 跳 跃 表 每 个 节点 的 分 值 (score) 都 是 一 个 槽 号 ， 而 每 
个 节点 的 成 员 (member) 都 是 一 个 数据 库 键 : 


每 当 节 点 往 数 据 库 中 添加 一 个 新 的 键 值 对 时 ， 节 点 就 会 将 这 个 键 
以 及 键 的 横 号 关联 到 slots_to_keys 跳 跃 表 。 


` 当 节点 删除 数据 库 中 的 茶 个 键 值 对 时 ， 节 后 残 会 在 slots_to_keys 跳 
跃 表 解除 被 删除 键 与 模 志 的 关联 。 


举 个 例子 ， 对 于 图 17-22 所 示 的 数据 库 ， 节 点 7000 将 创建 类 似 图 17- 











Stringobject 
|i 
StringObject 
"pook" 







23 所 示 的 Slots_to_keys 跳 跃 表 : 


- 键 "book" 所 在 跳跃 表 贡 点 的 分 值 为 1337.0， 这 表示 键 "book" 所 在 的 
槽 为 1337。 


键 "date" 所 在 跳跃 表 节 点 的 分 值 为 2022.0， 这 表示 键 "date" 所 在 的 槽 
为 2022。 


键 "lst" 所 在 跳跃 表 节 点 的 分 值 为 3347.0， 这 表示 键 "lst" 所 在 的 槽 为 
3347。 


通过 在 slots_to_keys 跳 跃 表 中 记录 各 个 数据 库 键 所 属 的 槽 ， 节 点 可 
以 很 方便 地 对 属于 某 个 或 某 些 模 的 所 有 数据 库 键 进行 批量 操作 ， 例 如 命 
令 CLUSTER GETKEYSINSLOT<slot><count> 命 令 可 以 返回 最 多 count 个 
人 而 这 个 命令 就 是 通过 明 历 Slots_to_keys 跳 跃 表 来 
实现 的 。 











NULL 


NULL 







图 17-23 ”节点 7000 的 slots_to_keys 跳 跃 表 


17.4 重新 分 片 


Redis 集 群 的 重新 分 片 操作 可 以 将 任意 数量 已 经 指派 给 茶 个 节点 
( 源 节点 ) 的 模 改 为 指派 给 马 一 个 节点 《目标 节点 ) ， 并 且 相 关 槽 所 属 
的 键 值 对 也 会 从 源 市 皮 被 移动 到 目标 节 扩 。 


重新 分 片 操作 可 以 在 线 (online〉 进 行 ， 在 重新 分 片 的 过 程 中 ， 集 
群 不 需要 下 线 ， 并 且 源 节点 和 目标 节点 都 可 以 继续 处 理 命令 请 求 。 


举 个 例子 ， 对 于 之 前 提 到 的 ， 包 含 7000、7001、7002 三 个 节点 的 集 
群 来 说 ， 我 们 可 以 向 这 个 集群 添加 一 个 卫 为 127.0.0.1， 端 口号 为 7003 的 
节点 (后 面 简称 节点 7003) : 








$ redis-cli -c -p 7000 
127.6.6.1:7969> CLUSTER MEET 4127.0.90.1 7993 


127.0.0.1:7000> cluster nodes 

51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master - 0 0 0 connected 0-5000 
68eef66df23420a5862208ef5b1a7005b806f2ff 127.0.0.1:7001 master - 0 1388635782831 0 connected 5001-10000 
9dfb4c4e016e627d9769e4c9bb0d4fa208e65c26 127.0.0.1:7002 master - 0 1388635782831 0 connected 10001-16383 
9094579925484ce537d3410d7ce97bd2e269c459a2 127.0.0.1:7003 master - 0 1388635782330 0 connected 





然后 通过 重新 分 片 操 作 ， 将 原本 指派 给 节点 7002 的 槽 15001 至 16383 
改 为 指派 给 节点 7003。 


以 下 是 重新 分 片 操作 执行 之 后 ， 市 反 的 权 分 配 状态 : 





127.0.0.1:7000> cluster nodes 

51549e625cfda318ad27423a31e7476fe3cd2939 :0 myself,master -0 0 0 connected 0-5000 
68eef66df23420a5862208ef5b1a7005b806f2ff 127.0.0.1:7001 master -0 1388635782831 0 connected 5001-10000 
9dfb4c4e016e627d9769e4c9bb0d4fa208e65c26 127.0.0.1:7002 master -0 1388635782831 0 connected 10001-15000 
04579925484ce537d3410d7ce97bd2e260c459a2 127.0.0.1:7003 master -0 1388635782330 0 connected 15001-16383 





重新 分 片 的 实现 原理 

Redis 集 群 的 重新 分 片 操作 是 由 Redis 的 集群 管理 软件 redis-trib 负 责 
执行 的 ，Redis 提 供 了 进行 重新 分 片 所 需 的 所 有 命令 ， 而 redis-trib 则 通过 
向 源 节 点 和 目标 节点 发 送 命令 来 进行 重新 分 片 操作 。 

redis-trib 对 集群 的 单个 槽 slot 进 行 重新 分 片 的 步骤 如 下 : 


1) redis-trib 对 目标 节点 发 送 CLUSTER 





SETSLOT<slot>IMPORTING<source id> 命 令 ， 让 目标 节点 准备 好 从 源 
节点 导入 (import) 属于 棋 slot 的 键 值 对 。 


2) redis-trib 对 源 节 点 发 送 CLUSTER 
SETSLOT<slot>MIGRATING<target_id> 命 令 ， 让 源 节 点 准备 好 将 属于 
模 Slot 的 键 值 对 迁移 (migrate) 至 目标 节点 。 


3) redis-trib 回 源 节 点 发 送 CLUSTER GETKEYSINSLOT<slot> 
<count> 命 令 ， 获 得 最 多 count 个 属于 槽 Slot 的 键 值 对 的 键 名 〈key 
name) 。 


4) 对 于 步 又 3 获得 的 每 个 键 名 ，redis-trib 都 问 源 节点 发 送 一 个 
MIGRATE<target_ip><target_port><key_name>0<timeout> 命 令 ， 将 被 选 
中 的 键 原子 地 从 源 节点 迁移 至 目标 市 点 。 


5) 重复 执行 步骤 3 和 步骤 4， 直 到 源 节 点 保存 的 所 有 属于 本 slot 的 键 
值 对 都 被 迁移 至 目标 节点 为 止 。 每 次 迁移 键 的 过 程 如 图 17-24 所 示 。 


6) redis-trib 问 集群 中 的 任意 一 个 节点 发 送 CLUSTER 
SETSLOT<slot>NODE<target_id> 命 令 ， 将 覃 slot 指 派 给 目标 节点 ， 这 一 
指派 信息 会 通过 消息 发 送 至 整个 集群 ， 最 终 集群 中 的 所 有 贡 点 都 会 知道 
槽 slot 已 经 指派 给 了 目标 节点 。 


]) 发 达 命 令 
CLUSTER GETKEYSINSLOT <slot> <count> 






















4) 根 据 MIGRATE 命令 的 指示 
将 刍 迁 移 至 目标 节点 





2) 返 回 最 多 count 个 属于 醒 slot 的 键 


天 全 已 工 三 一 七 工 工 二 





3) 对 于 每 个 迟 回 键 
向 源 节 点 发 送 一 个 MIGRATE 命令 





图 17-24 ”迁移 键 的 过 程 


图 17-25 展 示 了 对 覃 slot 进 行 重新 分 所 的 整个 过 程 。 


如 果 重 新 分 片 涉及 多 个 模 ， 那 么 redis-trib 将 对 每 个 给 定 的 槽 分 别 执 
行 上 面 给 出 的 步骤 。 


开始 对 槽 slot 进行 重新 分 片 
目标 节点 准备 导入 模 slot 的 键 值 对 
源 节 点 准备 迁移 模 slot 的 键 值 对 


源 节点 是 否 保存 了 
属于 槽 slot 的 键 ? 


将 这 些 键 
全 部 迁移 至 目标 节点 







将 槽 slot 指派 给 目标 节点 


完成 对 醒 slot 的 重新 分 片 


图 17-25 “对 醒 slot 进 行 重新 分 片 的 过 程 


17.5 ”ASK 错误 


在 进行 重新 分 片 期 间 ， 源 节点 回 目 标 节 后 迁移 一 个 槽 的 过 程 中 ， 可 
能 会 出 现 这 样 一 种 情况 : 属于 被 迁移 槽 的 一 部 分 键 值 对 保存 在 源 节 点 里 
面 ， 而 妨 一 部 分 键 值 对 则 保存 在 目标 节点 里 面 。 


当 客 户 端 问 源 节 点 发 送 一 个 与 数据 库 键 有 关 的 命令 ， 并 且 命令 要 处 
理 的 数据 库 键 恰好 就 属于 正在 被 迁移 的 槽 时 : 


源 节 点 会 先 在 自 乙 的 数据 库 里 面 否 找 指定 的 刍 ， 如 果 找 到 的 话 ， 
就 直接 执行 客户 问 发 送 的 命令 。 


.相反 地 ， 如 果 源 节点 没 能 在 自己 的 数据 库 里 面 找 到 指定 的 键 ， 那 
么 这 个 键 有 可 能 已 经 被 迁移 到 了 目标 节点 ， 源 节点 将 问 客 户 端 返回 一 个 
ASK 错 误 ， 指 引 客 户 端 转 癌 正 在 导入 覃 的 目标 节点 ， 并 再 次 发 送 之 前 想 
要 执行 的 命令 。 


图 17-26 展 示 了 源 节 点 判断 是 否 需要 回 客 户 端 发 送 ASK 错 误 的 整 
星 。 














客户 端 癌 源 节 扣 发 送 关 于 键 key 的 命令 





键 key 是 否 存 在 于 
源 节 点 的 数据 库 ? 









在 
键 key 不 存在 | 键 key 有 可 能 在 目标 节操 
源 节点 执行 客户 端 发 送 的 命令 | | 回 客户 端 返 回 ASK 错误 





图 17-26 ”判断 是 否 发 送 ASK 错 误 的 过 程 


举 个 例子 ， 假 设 节 点 7002 正 在 同 节 点 7003 迁 移 模 16198， 这 个 模 包 


含 "is" 和 "ove" 两 个 键 ， 其 中 键 "is LL 还 留 留 在 节点 7002， 而 键 "love" 已 经 被 迁 
移 到 了 节点 7003。 


如 果 我 们 同 节 点 7002 发 送 关 于 键 "is" 的 命令 ， 那 么 这 个 命令 会 直接 
被 节点 7002 执 行 : 





127.9.9.1:7692> GET "is" 
"you get the key 'is'" 





而 如 果 我 们 癌 节 点 7002 发 送 关 于 键 "love" 的 命令 ， 那 么 客户 端 会 先 
被 转向 至 节点 7003， 然 后 再 次 执行 命令 ; 





人 0.0. 3 7002> GET "love" 

Redirected to t [16198] located at 127.0.0.1:7003 
“you ge et Fe key 'love'" 
127.8.8.1:7993> 





被 隐藏 的 ASK 错 误 





和 接 到 MOVED 错 误 时 的 情况 类 似 ， 集 群 模式 的 redis-cli 在 接 到 
ASK 错 误 时 也 不 会 打印 错误 ， 而 是 自动 根据 错误 提供 的 卫 地 址 和 端 
口 进行 转向 动作 。 如 采 想 看 到 让 节点 发 送 的 ASK 错 误 的 话 ， 可 以 使 用 
单机 模式 的 redis-cli 客 户 端 : 





$ redis-cli 7002 
127.@: 0. I: 7002> GET "lov 
(error ) ASK 16198 127.0. 全 1:7003 





天 
a /二 二 


在 写 这 篇 文章 的 时 候 ， 集 群 模式 的 redis-cli 并 未 支持 ASK 自 动 转 
同 ， 上 面 展示 的 ASK 自 动 转 问 行为 实际 上 是 根据 MOVED 自 动 转 癌 行为 
虚构 出 来 的 。 因 此 ， 当 集群 模式 的 redis-cli 真 正 支 持 ASK 自 动 转向 时 ， 





它 的 行为 和 上 面 展示 的 行为 可 能 会 有 所 不 同 。 


本 节 将 对 ASK 错 误 的 实现 原理 进行 说 明 ， 并 对 比 ASK 错 误 和 
MOVED 错 误 的 区 别 。 


17.5.1 CLUSTER SETSLOT IMPORTING 命 令 的 实现 


clusterState 结 构 的 importing_slots_from 数 组 记录 了 当前 节点 正在 从 
其 他 节点 导入 的 槽 ; 





typedef struct clusterState { 
clusterNode *importing_slots_from[16384]; 


} clusterState; 





如 果 importing_slots_from[i] 的 值 不 为 NULL， 而 是 指 同 一 个 
clusterNode 结 构 ， 那 么 表示 当前 节点 正在 从 clusterNode 所 代表 的 节点 导 
入 槽 i。 


在 对 集群 进行 重新 分 片 的 时 候 ， 癌 目标 节点 发 送 命令 : 





CLUSTER SETSLOT <i> IMPORTING <source_id> 





可 以 将 目标 节点 clusterState.importing_slots_from[j] 的 值 设 置 为 
source_id 所 代表 市 点 的 clusterNode 结 构 。 


举 个 例子 ， 如 果 客 户 端 癌 节 点 7003 发 送 以 下 命令 : 





# 9dfb... 
是 节点 70092 
的 


127.0.0.1:7003> CLUSTER SETSLOT 16198 IMPORTING 9dfb4c4e016e627d9769e4c9bbod4fa208e65c26 
OK 





”那么 节点 7003 的 clusterState.importing_slots_from 数 组 将 变 成 图 17-27 
所 示 的 样子 。 









clusterstate 
limporting slots from 









clusterNode*[16384] 


NULL 
NULL 
NULL 





ip 
"127,0,.0,.1" 


port 
1002 


图 17-27 ”节点 7003 的 importing_slots_from 数 组 
17.5.2 ”CLUSTER SETSLOT MIGRATING 命 令 的 实现 


clusterState 结 构 的 migrating_slots_to 数 组 记录 了 当前 节点 正在 迁移 至 
其 他 节点 的 槽 ; 





typedef struct clLusterState { 
clusterNode *migrating_slots_ to[16384]; 


} clusterState; 





如 果 migrating_slots_to[ 让 的 值 不 为 NULL， 而 是 指 癌 一 个 clusterNode 
结构 ， 那 么 表示 当前 节点 正在 将 权 i 迁 移 至 clusterNode 所 代表 的 节点 。 


在 对 集群 进行 重新 分 片 的 时 候 ， 回 源 贡 点 发 送 命令 : 





CLUSTER SETSLOT <i> MIGRATING <target_id> 





可 以 将 源 节点 clusterState.migrating_slots_to[j 的 值 设 置 为 target_id 所 
代表 节点 的 clusterNode 结 构 。 


举 个 例子 ， 如 果 客 户 端 问 节点 7002 及 送 以 下 命令 : 





# 0457... 
是 节点 7003 
的 


127.0.0.1:7002> CLUSTER SETSLOT 16198 MIGRATING 04579925484ce537d3410d7ce97bd2e260c459a2 
OK 





那么 节点 7002 的 clusterState.migrating_slots_to 数 组 将 变 成 图 17-28 所 
示 的 样子 。 















clusterstate 


migrating slots to 







clusterNode*[16384] 


NULL 
NULL 


NULL 





ip 
"127.0.0.1" 


port 
7003 


图 17-28 ”节点 7002 的 migrating_slots_to 数 组 
17.5.3” ASK 错误 


如 朵 市 点 收 到 一 个 关于 键 key 的 命令 请 求 ， 并 且 键 key 所 属 的 横 i 下 好 
束 指 派 给 了 这 个 市 颇 ， 那 么 节点 会 尝试 在 目 己 的 数据 库 里 三 找 键 key， 
如 果 找 到 了 的 话 ， 节 点 就 直接 执行 客户 端 发 送 的 命令 。 


与 此 相反 ， 如 果 节 点 没有 在 自己 的 数据 库 里 找到 键 key， 那 么 节点 
会 检查 自己 的 clusterState.migrating_slots_to[ 讨 ， 看 键 key 所 属 的 槽 是 否 正 
在 进行 迁移 ， 如 果 槽 的确 在 进行 迁移 的 话 ， 那 么 节点 会 回 客户 端 发 送 
一 个 ASK 错 误 ， 引 导 客 户 端 到 正在 导入 槽 i 的 节点 去 查找 键 key。 





举 个 例子 ， 假设 在 节点 7002 向 节点 7003 迁 和 王 移 槽 16198 期 间 ， 有 一 个 
客户 端 问 节点 7002 发 送 命令 : 





GET 
“love 





因为 键 "love" 正 好 属于 槽 16198， 所 以 节点 7002 会 首先 在 自己 的 数据 
库 中 碍 找 键 qove"， 但 并 没有 找到 ， 通 过 检查 日 己 的 
clusterState.migrating slots_ to[16198]， 节 点 7002 发 现 自己 正在 将 槽 16198 
迁移 至 节点 7003， 于 是 它 向 客户 端 返 回 错误 : 





ASK 16198 127.0.0.1:7003 














这 个 错误 表示 客户 端 可 以 尝试 到 IP 为 127.0.0.1， 端 口号 为 7003 的 节 
GET “love" 


点 去 执行 和 权 16198 有 关 的 操作 ， 如 图 17-29 所 示 。 
| 和 攻占 
图 17-29 客户 端 接收 到 节点 7002 返 回 的 ASK 错 误 
接 到 ASK 错 误 的 客户 端 会 根据 错误 提供 的 卫 地 址 和 端口 号 ， 转 各 至 
正在 导入 槽 的 目标 节点 ， 然 后 首先 辣 目 标 节 点 发 送 一 个 ASKING 命 令 ， 
之 后 再 重新 发 送 原 本 想 要 执行 的 命令 。 


以 前 面 的 例子 来 次 ， 当 客户 端 接 收 到 市 点 7002 返 回 的 以 下 错误 时 : 








ASK 16198 127.0.0.1:7003 





客户 端 会 转向 至 节点 7003， 首 先 发 送 命令 





ASKING 





然后 再 次 及 送 命令 





GET "love" 





并 获得 回复 : 


SY 





"You get the key 'love'" 





整个 过 程 如 图 17-30 所 示 。 


转向 
全 askme | 003 


GET "love" 


"you get the key 'love'" 
图 17-30 ”客户 端 转 问 至 节点 7003 
17.5.4 ASKING 命 令 


ASKING 命 令 唯 一 要 做 的 束 是 打开 发 送 该 命令 的 客户 端的 
REDIS_ASKING 标 识 ， 以 下 是 该 命令 的 伪 代 码 实 现 : 








def ASKING() : 


开标 识 
client .flags |= REDIS_ASKING 
# 








问 客户 端 返回 OK 








replLy("OK" ) 





在 一 般 情 况 下 ， 如 果 客 户 端 问 节点 发 送 一 个 关于 覃 ij 的 命令 ， 而 模 i 
又 没有 指派 给 这 个 节点 的 话 ， 那 么 节 节点 将 向 客户 端 返 回 一 个 MOVED 错 
吕 ， 但 是 ， 如 果 节 点 的 clusterStateimporting slots_from 四 显示 节点 正在 
导入 柳 i， 并 且 发 送 命 令 的 客户 端 带 有 REDIS_ASKING 标 识 ， 那 么 节点 
将 破例 执行 这 个 关于 槽 i 的 命令 一 次 ， 图 17-31 展 示 了 这 个 判断 过 程 。 


客户 端 向 节点 发 送 关 于 槽 i 的 命令 


槽 i 是 否 指派 给 了 节点 ? 


否 
节点 是 否 正在 导入 槽 i ? 








客户 端 是 否 带 有 
ASKING 标识 ? 





节点 执行 客户 端 发 送 的 命令 节点 向 客户 端 返回 MOVED 命令 
图 17-31 节点 判断 是 否 执行 客户 端 命令 的 过 程 





当 客 户 端 接收 到 ASK 错 误 并 转 问 至 正在 导入 槽 的 节点 时 ， 容 让 "ee 
先 癌 节点 发 送 一 个 ASKING 命 令 ， 然 后 才 重 新 发 送 想 要 执行 的 命令 ， 
是 因为 如 果 客 户 端 不 发 送 ASKING 命 令 ， 而 直接 发 送 想 要 执行 的 命令 和 的 
话 ， 那 么 客户 端 发 送 的 命令 将 被 节点 拒绝 执行 ， 并 返回 MOVED 和 错误 。 


举 个 例子 ， 我 们 可 以 使 用 普通 模式 的 redis-cli 客 户 端 ， 问 正在 导入 
模 16198 的 节点 7003 发 送 以 下 命令 : 





$ ./redis-cli -p 7003 


127.6.6.1:7963> GET "love” 
(error) MOVED 16198 127.0.0.1:7002 





虽然 节点 we 但 模 16198 目 前 仍然 是 指派 给 了 节 
点 7002， 所 以 节点 7003 会 问 客 户 端 返回 MOVED 错 误 ， 指 引 客 户 端 转 回 
至 节点 7002。 


但 是 ， 如 果 我 们 在 发 送 GET 命 令 之 前 ， 先 向 节点 发 送 一 个 ASKING 
命令 ， 那 么 这 个 GET 命 令 就 会 被 节点 7003 执 行 : 





127.0.0.1:7003> ASKING 


OK 
Lo 0.0.1:7003> GET 2 je 
"you get the key 'lov 





另外 要 注意 的 是 ， 客 户 端 的 REDIS_ASKING 标 识 在 一 个 一 次 性 标 ， 
识 ， 当 节点 执行 了 一 个 带 有 REDIS_ASKING 标 识 的 客户 端 发 送 的 命令 之 
后 ， 客 户 端的 REDIS_ASKING 标 识 就 会 被 移 除 。 


学 个 例 了 ， 如 有 打 我 们 在 成 功 执 行 GET 命 令 之 后 ， 再 次 向 节点 7003 发 
送 GET 人 命令， 那么 第 二 次 发 送 的 GET 命 令 将 执行 失败 ， 因 为 这 时 客户 端 
的 REDIS_ASKING 标 识 已 经 被 移 除 : 





127.0.0.1:7003> ASKING # 
打开 REDIS_ ASKING 


OK 
127.0.0.1:7003> GET "love" # 
入 隐 REDISS ASKING 

识 


nyo get the key 'lov' 

127.0.0.1:7003> GET “Tov e" # REDIS_ASKING 
标识 未 打开 ， 执 行 失败 

(error) MOVED 16198 127.0.0.1:7002 





17.5.5 ASK 错误 和 MOVED 错 误 的 区 别 
ASK 错 误 和 MOVED 错 误 都 会 导致 客户 端 转向 ， 它 们 的 区 别 在 于 : 


-MOVED 错 误 代表 槽 的 负责 权 已 经 从 一 个 节点 转移 到 了 男 一 个 节 
点 : 在 客户 端 收 到 关于 槽 i 的 MOVED 错 误 之 后 ， 客 户 端 每 次 遇 到 关于 槽 
i 9 命令 请 求 时 ， 都 可 以 直接 将 命令 请 求 发 送 至 MOVED 错 误 所 指向 的 节 
点 ， 因 为 该 节点 就 是 目前 负责 枝 i 的 节点 。 


与 此 相反 ，ASK 错 误 只 是 两 个 节点 在 迁移 槽 的 过 程 中 使 用 的 一 种 
临时 措施 : 在 客户 端 收 到 关于 覃 ij 的 ASK 错 误 之 后 ， 客 户 端 只 会 在 接 下 
来 的 一 次 命令 请 求 中 将 关于 覃 i 的 命令 请 求 发 送 全 ASK 错 误 所 指示 的 
扩 ， 但 这 种 转 癌 不 会 对 客户 并 今后 发 送 关 于 槽 的 命令 请 求 产生 任何 影 
啊 ， 客 户 问 仍然 会 将 关于 权 i 的 命令 请 求 及 送 至 目前 负责 处 理 横 的 市 
点 ， 除 非 ASK 错 误 再 次 出 现 。 











17.6 复制 与 故障 转移 


Redis 集 群 中 的 节点 分 为 主 节点 (master) 和 从 节点 (slave) ， 其 中 
主 节点 用 于 处 理 模 ， 而 从 节点 则 用 于 复制 某 个 主 节点 ， 并 在 被 复制 的 主 
节点 下 线 时 ， 代 蔡 下 线 主 节点 继续 处 理 命令 请 求 。 


举 个 例子 ， 对 于 包含 7000、7001、7002、7003 四 个 主 节点 的 集群 来 
说 ， 我 们 可 以 将 7004、7005 两 个 节点 添加 到 集群 里 面 ， 并 将 这 两 个 节点 
设 定 为 节点 7000 的 从 节点 ， 如 图 17-32 所 示 (图 中 以 双 圆 形 表示 主 节 
点 ， 单 圆 形 表示 从 节点 ) 。 














图 17-32 设置 节点 7004 和 节点 7005 成 为 节点 7000 的 从 节点 
表 17-1 记 录 了 集群 各 个 节点 的 当前 状态 ， 以 及 它们 正在 做 的 工作 。 
表 17-1 集群 各 个 节点 的 当前 状态 





7000 主 节操 在 线 负责 处 理 楼 0 至 村 5000 
7001 主 节操 负责 处 理 档 5001 至 本 10000 
700) 主 节操 负责 处 理 槽 10001 至 档 15000 
7003 主 节操 负责 处 理 档 15001 至 档 16383 
7004 从 节操 复制 节操 7000 

7005 从 书 抽 复制 节点 7000 





如 果 这 时 ， 节 点 7000 进 入 下 线 状 态 ， 那 么 集群 中 仍 在 正常 运作 的 几 
个 主 节点 将 在 节点 7000 的 两 个 从 节点 节点 7004 和 节点 7005 中 选 出 一 
个 节点 作为 新 的 主 节 点 ， 这 个 新 的 主 节 点 将 接管 原来 节点 7000 负 责 处 理 
的 槽 ， 并 继续 处 理 客户 端 发 送 的 命令 请 求 。 


例如 ， 如 果 节 点 7004 被 选中 为 新 的 主 节点 ， 那 么 节点 7004 将 接管 原 
来 由 节点 7000 负 责 处 理 的 槽 0 至 槽 5000， 节 点 7005 也 会 从 原来 的 复制 节 
点 7000， 改 为 复制 节点 7004， 如 图 17-33 所 示 (图 中 用 虚线 包围 的 节点 
为 已 下 做 宙 让 3 











图 17-33 ”节点 7004 成 为 新 的 主 节点 


表 17-2 记 录 了 在 对 节点 7000 进 行 故障 转移 之 后 ， 集 群 各 个 节点 的 当 
前 状态 ， 以 及 它们 正在 做 的 工作 。 


表 17-2 集群 各 个 市 点 的 当前 状态 


ga ee 因为 故障 转 
= 折 以 该 工作 已 经 无 效 。) 

7001 负责 处 理 档 5001 至 档 10000 

7003 ET 负责 处 理 档 15001 至 楼 16383 


如 果 在 故障 转移 完成 之 后 ， 下 线 的 节点 7000 重 新 上 线 ， 那 么 它 将 成 
为 节点 7004 的 从 节点 ， 如 图 17-34 所 示 。 


fe 


图 17-34 重新 上 线 的 节点 7000 成 为 节点 7004 的 从 节点 


表 17-3 展 示 了 节点 7000 复 制 节 点 7004 之 后 ， 集 群 中 各 个 节点 的 状 


a 


表 17-3 集群 各 个 市 点 的 当前 状态 


镇 人 
7000 引线 复制 节 点 7004 





7001 负责 处 理 本 5001 至 模 10000 
700) 负责 处 理 楼 10001 至 糖 15000 
7003 负责 处 理 档 15001 至 档 16383 
7004 节点 在 线 负责 处 理 楼 0 至 楼 5000 
7005 从 节点 复制 节点 7004 





本 节 接 下 来 的 内 容 将 介绍 节点 的 复制 方法 ， 检 测 节点 是 否 下 线 的 方 
法 ， 以 及 对 下 线 主 市 点 进 行 故障 转移 的 方法 。 


17.6.1 设置 从 节点 
问 一 个 节点 发 送 命令 : 





CLUSTER REPLICATE <node_ id> 





可 以 让 接收 命令 的 节点 成 为 node_id 所 指定 节点 的 从 节点 ， 并 开始 
对 主 市 把 进行 复制 : 


:接收 到 该 命令 的 节点 首先 会 在 自己 的 clusterState.nodes 字 典 中 找到 
node_id 所 对 应 节点 的 clusterNode 结 构 ， 并 将 自己 的 
clusterState.myself.slaveof 指 针 指 向 这 个 结构 ， 以 此 来 记录 这 个 节点 正在 
复制 的 主 节 点 : 














struct clusterNode { 
7 


wm Te 那么 指向 主 节点 
ck clu a *slaveof; 
3 


}; 





:然后 节点 会 修改 自己 在 clusterState.myself.flags 中 的 属性 ， 关 闭 原本 
的 REDIS_NODE_MASTER 标 识 ， 打 开 REDIS_NODE_SLAVE 标 识 ， 表 
示 这 个 节点 已 经 由 原来 的 主 节点 变 成 了 从 节点 。 


:最 后 ， 闻 点 会 调用 复制 代码 ， 并 根据 clusterState.myself.slaveof 指 问 
的 clusterNode 结 构 所 保存 的 IP 地 址 和 端口 号 ， 对 主 节点 进行 复制 。 因 为 
节点 的 复制 功能 和 单机 Redis 服 务 器 的 复制 功能 使 用 了 相同 的 代码 ， 所 
以 让 从 节点 复制 主 市 点 相当 于 向 从 市 点 及 送 命 令 SLAVEOF。 


图 17-35 展 示 了 节点 7004 在 复制 节点 7000 时 的 clusterState 结 构 : 








ClusterState.myself.flags 属 性 的 值 为 REDIS_NODE_SLAVE， 表 示 市 
点 7004 是 一 个 从 市 点 。 


:clusterState.myself.slaveof 指 针 指 向 代表 节点 7000 的 结构 ， 表 示 节 点 
7004 正 在 复制 的 主 节 点 为 节 点 7000。 






clusterNode 


flags 
REDIS NODE MASTER 


ip 
TE 
port 
7000 
图 17-35 ”节点 7004 的 clusterState 结 构 
一 个 节点 成 为 从 节点 ， 并 开始 复制 茶 个 主 节 点 这 一 信息 会 通过 消 县 
发 送 给 集群 中 的 其 他 节点 ， 最 终 集 群 中 的 所 有 节点 都 会 知道 某 个 从 节点 
正在 复制 某 个 主 节 点 。 


集群 中 的 所 有 市 点 都 会 在 代表 主 节点 的 clusterNode 结 构 的 slaves 属 
性 和 numslaves 属 性 中 记录 正在 复制 这 个 主 节点 的 从 节点 名 单 : 











struct clusterNode { 
Rd 


a 


正在 复制 这 个 主 节点 的 从 节点 数量 
int numslaves; 


zt 
-个 数组 
LA 
每 个 数组 项 指向 一 个 正在 复制 这 个 主 节点 的 从 节点 的 clusterNode 
结构 
struct clusterNode **slaves; 
WE 


}; 





举 个 例子 ， 图 17-36 记 录 了 节点 7004 和 节点 7005 成 为 节点 7000 的 从 
节点 之 后 ， 集 群 中 的 各 个 节点 为 节点 7000 创 建 的 clusterNode 结 构 的 样 
子 : 


:代表 节点 7000 的 clusterNode 结 构 的 numslaves 属 性 的 值 为 2， 这 说 明 
有 两 个 从 节点 正在 复制 节点 7000。 


-代表 节点 7000 的 clusterNode 结 构 的 slaves 数 组 的 两 个 项 分 别 指 癌 代 
表 节 点 7004 和 代表 节点 7005 的 clusterNode 结 构 ， 这 说 明 节 点 7000 的 两 个 
从 节点 分 别 是 节点 7004 和 节点 7005。 





flags 
REDIS NODE SLAVE 





图 17-36 ”集群 中 的 各 个 节点 为 节点 7000 创 建 的 clusterNode 结 构 


17.6.2 ”故障 检测 


集群 中 的 每 个 节点 都 会 定期 地 向 集群 中 的 其 他 节点 发 送 PING 消 
妃 ， 以 此 来 检测 对 方 是 否 在 线 ， 如 果 接 收 PING 消 息 的 节点 没有 在 规定 
的 时 间 内 ， 辐 发 送 PING 消 息 的 节点 返回 PONG 消 妃 ， 那 么 发 送 PING 消 
县 的 节点 就 会 将 接收 PING 消 息 的 节点 标记 为 疑似 下 线 (probable fail， 


PFAIL ) 。 

举 个 例子 ， 如 果 节 点 7001 向 节点 7000 发 送 了 一 条 PING 消 息 ， 但 是 
节点 7000 没 有 在 规定 的 时 间 内 ， 同 节点 7001 返 回 一 条 PONG 消 息 ， 那 么 
节点 7001 就 会 在 自己 的 dusterState.nodes 字 典 中 找到 节点 7000 所 对 应 的 
clusterNode 结 构 ， 并 在 结构 的 flags 属 性 中 打开 REDIS_NODE_PFAIL 标 
识 ， 以 此 表示 节点 7000 进 入 了 疑似 下 线 状 态 ， 如 图 17-37 所 示 。 


clusterNode 


flags 
REDIS NODE MASTER & REDIS NODE PFAIL 








ip 
ou" 





图 17-37 ”代表 节点 7000 的 clusterNode 结 构 








集群 中 的 各 个 节点 会 通过 互相 发 送 消息 的 方式 来 交换 集群 中 各 个 节 
点 的 状态 信息 ， 例 如 某 个 节点 是 处 于 在 线 状态 、 疑 似 下 线 状态 
CPFAILL ) ， 还 是 已 下 线 状 态 (FAIL) 。 


当 一 个 主 节点 A 通 过 消息 得 知 主 节 点 B 认 为 主 节 点 C 进 入 了 疑似 下 线 
状态 时 ， 主 节点 A 会 在 自己 的 dusterState.nodes 字 典 中 找到 主 节点 C 所 对 











应 的 clusterNode 结 构 ， 并 将 主 节点 B 的 下 线 报告 (failure report) 添加 到 
clusterNode 结 构 的 fail_reports 链 表 里 面 : 





struct clusterNode { 
BA 





学 
-个 链表 ， 记 录 了 所 有 其 他 节点 对 该 节点 的 下 线 报告 
list *fail_reports 





每 个 下 线 报告 由 一 个 clusterNodeFailReport 结 构 表 示 : 





struct clusterNodeFailReport { 
// 


报告 目标 节点 已 经 下 线 的 节点 
struct ClusterNode *node; 


// 
最 后 一 次 从 node 
节点 收 到 下 线 报告 的 时 间 


程序 使 用 这 个 时 间 惟 来 检查 下 线 报告 是 否 过 期 
(与 当前 时 间 相 差 太 久 的 下 线 报告 会 被 删除 》 
i time; 




















es ime, 
} typedef clusterNodeFailReport; 





举 个 例子 ， 如 果 主 节点 7001 在 收 到 主 节 点 7002、 主 节点 7003 发 送 的 
消息 后 得 知 ， 主 节点 7002 和 主 节点 7003 都 认为 主 节点 7000 进 入 了 疑似 下 
线 状态 ， 那 么 主 节点 7001 将 为 主 节点 7000 创 建 图 17-38 所 示 的 下 线 报 
Pa 


站 0o 


clusterNode 







flags 


REDIS NODE MASTER 
& 


REDIS NODE PFAIL 


Wha 
port 
| 










clusterNode 
FallReport 


time 
node 1390525039321 


time 
1390525039000 | Me clusterNode | 


| 
flags 
WA dad 













clusterNode 


clusterNode 


flags 
REDIS NODE MASTER 


ip 
Um es 

port 

7003 






FallReport 



















port 
1002 


图 17-38 ”节点 7000 的 下 线 报告 


如 采 在 一 个 集群 里 面 ， 半 数 以 上 负责 处 理 槽 的 主 节 点 都 将 茶 个 主 市 
扩 X 报 告 为 疑似 下 线 ， 那 么 这 个 主 市 点 x 将 被 标记 为 已 下 线 (FAIL) ， 
将 主 节 点 x 标记 为 已 下 线 的 节点 会 回 集 群 广 播 一 条 关于 主 节 点 x 的 FAIL 





消 轧 ， 所 有 收 到 这 条 FAIL 消 妃 的 节点 都 会 立即 将 主 贡 点 x 标 记 为 已 下 


=- O 


举 个 例子 ， 对 于 图 17-38 所 示 的 下 线 报告 来 说 ， 主 节点 7002 和 主 节 
点 7003 都 认为 主 节点 7000 进 入 了 下 线 状 态 ， 并 且 主 节点 7001 也 认为 主 节 
点 7000 进 入 了 另 晃 似 下 线 状态 (代表 主 节 点 7000 的 吉 构 打开 了 
REDIS_NODE_PFAIL 标 识 ) ， 综 合 起 来 ， 在 集群 四 个 负责 处 理 槽 的 主 
节点 里 面 ， 有 三 个 都 将 主 节点 7000 标 记 为 下 线 ， 数 量 已 经 超过 了 半数 ， 
所 以 主 节 点 7001 会 将 主 节 点 7000 标 记 为 已 下 线 ， 并 向 集群 广播 一 条 关于 
主 节 点 7000 的 FA 开 消 息 ， 如 图 17-39 所 示 。 






发 送 FAIL 消息 
发 送 FAIL 消 居 


图 17-39 ”节点 7001 向 集群 广播 FAIL 消 息 


17.6.3 ”故障 转移 


当 一 个 从 节操 发 现 自 己 正在 复制 的 主 节点 进入 了 已 下 线 状 态 时 ， 从 
节点 将 开始 对 下 线 主 节点 进行 故障 转移 ， 以 下 是 故障 转移 的 执行 步骤 : 


1) 复制 下 线 主 节 点 的 所 有 从 节点 里 面 ， 会 有 一 个 从 节点 被 选中 。 
2) 被 选中 的 从 节点 会 执行 SLAVEOF no one 命 令 ， 成 为 新 的 主 节 
点 。 





3) 新 的 主 节点 会 撤销 所 有 对 己 下 线 主 节点 的 槽 指派 ， 并 将 这 些 槽 
全 部 指派 给 自己 。 

4) 新 的 主 节 点 向 集群 广播 一 条 PONG 消 息 ， 这 条 PONG 消 息 可 以 让 
集群 中 的 其 他 节点 立即 知道 这 个 节点 已 经 由 从 节点 变 成 了 主 节点 ， 并 且 
这 个 主 节点 已 经 接管 了 原本 由 已 下 线 节点 负责 处 理 的 槽 。 


5) 新 的 主 节点 开始 接收 和 目 己 负责 处 理 的 槽 有 关 的 命令 请 求 ， 故 
隐 转 移 完 成 


17.6.4 ”选举 新 的 主 节操 
新 的 主 市 点 是 通过 选举 产生 的 。 
以 下 是 集群 选举 新 的 主 节 点 的 方法 : 
1) 集群 的 配置 纪元 是 一 个 目 增 计数 器 ， 它 的 初始 值 为 0。 


2) 当 集 群 里 的 茶 个 市 点 开始 一 次 故障 转移 操作 时 ， 集 群 配 置 纪 元 
的 值 会 被 增 一 。 


3) 对 于 每 个 配置 纪元 ， 集 群 里 每 个 负责 处 理 槽 的 主 节 点 都 有 一 次 
投票 的 机 会 ， 而 第 一 个 向 主 市 上 要 求 投票 的 从 节点 将 获得 主 节点 的 投 


= 




















ed 0 划 入 已 下 线 状态 时 ， 从 市 
所 会 问 集 群 广播 一 
C0 恩 ， 要 求 所 有 





收 到 这 条 消 忠 、 并 且 具 有 投票 权 的 主 市 把 同 这 个 从 节 扣 投票。 


5) 如 果 一 个 主 节点 具有 投票 权 〈 它 正在 负责 处 理 槽 ) ， 并 且 这 个 
主 节 点 尚未 投票 给 其 他 从 节点 ， 那 么 主 节 点 将 向 要 求 投票 的 从 节点 返回 
一 条 CLUSTERMSG_TYPE FAILOVER_AUTH _ACK 消 息 ， 表 示 这 个 主 
节点 支持 从 节点 成 为 新 的 主 节 点 。 


6) 每 个 参与 选举 的 从 节点 都 会 接收 
CLUSTERMSG TYPE FAILOVER_AUTH ACK 消 息 ， 并 根据 自己 收 到 
了 多 少 条 这 种 消息 来 统计 自己 获得 了 多 少 主 节点 的 支持 。 


7) 如 果 集 群 里 有 N 个 具有 投票 权 的 主 市 皮 ， 那 么 当 一 个 从 节点 收 
集 到 大 于 等 于 N/2+1 张 支持 紧 时 ， 这 个 从 节点 吏 会 当选 为 新 的 主 贡 点。 


8) 因为 在 每 一 个 配置 纪元 里 面 ， 每 个 具有 投票 权 的 主 节点 只 能 投 
一 次 票 ， 所 以 如 打 有 N 个 主 市 点 进行 投票 ， 那 么 具有 大 于 等 于 N/2+1 张 
支持 票 的 从 节点 只 会 有 一 个 ， 这 确保 了 新 的 主 节 点 只 会 有 一 个 。 


9) 如 果 在 一 个 配置 纪元 里 面 没 有 从 节操 能 收集 到 足够 多 的 支持 
0 
主 节 点 为 止 。 


这 个 选举 新 主 节 点 的 方法 和 第 16 章 介绍 的 选举 领头 Sentinel 的 方法 
非常 相似 ， 因 为 两 者 都 是 基于 Ratft 算 法 的 领头 选举 (leader election ) 方 
法 来 实现 的 。 


























17.7 消息 


集群 中 的 各 个 节点 通过 发 送 和 接收 消息 (message) 来 进行 通信 ， 
我 们 称 发 送 消息 的 节点 为 发 送 者 (sender) ， 接 收 消息 的 节点 为 接收 者 
(receiver) ， 如 图 17-40 所 示 。 








图 17-40 ”发 送 者 和 接收 者 
市 点 发 送 的 消息 主要 有 以 下 五 种 : 


-MEET 消 息 : 当 发 送 者 接 到 客户 端 发 送 的 CLUSTER ”MEET 命 令 
时 ， 发 送 者 会 向 接收 者 发 送 MEET 消 息 ， 请 求 接收 者 加 入 到 发 送 者 当前 
所 处 的 集群 里 面 。 


PING 消息 : 集群 里 的 每 个 节点 默认 每 隔 一 秒 钟 就 会 从 已 知 节点 列 
表 中 随机 选 出 五 个 节 点 ， 然 后 对 这 五 个 节点 中 最 长 时 间 没 有 发 送 过 
PING 消 息 的 节点 发 送 PING 消 息 昌 ， 以 此 来 检测 被 选中 的 节点 是 否 在 线 。 
除 此 之 外 ， 如 果 节 点 A 最 后 一 次 收 到 节点 B 发 送 的 ZONG 消息 的 时 间 ， 距 
离 当 前 时 间 已 经 超过 了 节点 A 的 cluster-node-timeout 选 项 设置 时 长 的 一 
半 ， 那 么 节点 A 也 会 向 节点 B 发 送 PING 消 息 ， 这 可 以 防止 节点 A 因为 长 
i 的 发 送 对 象 而 导致 对 节点 B 的 信 
Di 着 小 口 o 


:PONG 消 晨 : 当 接 收 者 收 到 发 送 者 发 来 的 MEET 消 奶 或 者 PING 消 忆 
时 ， 为 了 癌 发 送 者 确认 这 条 MEET 消 息 或 者 PING 消 息 已 到 达 ， 接 收 者 会 
问 发 送 者 返回 一 条 PONG 消 息 。 另 外 ， 一 个 节点 也 可 以 通过 回 集 群 广播 
自己 的 PONG 消 息 来 让 集群 中 的 其 他 节 点 立即 刷新 关于 这 个 节点 的 认 
识 ， 例 如 当 一 次 故障 转移 操作 成 功 执行 之 后 ， 新 的 主 节 ， 点 会 问 集 群 广播 
一 条 PONG 消 息 ， 以 此 来 让 集群 中 的 其 他 节点 立即 知道 这 个 节点 已 经 变 
成 了 主 节点 ， 并 且 接 管 了 己 下 线 节 点 负责 的 槽 。 














AIL 消息: 当 一 个 主 节点 A 判断 另 一 个 主 节点 B 已 经 进入 FAIL 状 态 
时 ， 节 点 A 会 癌 集群 广播 一 条 关于 节 上 点 B 的 FAIL 消 息 ， 所 有 收 到 这 条 消 
恩 的 节 站 点 都 会 立即 将 节点 B 标 记 为 已 下 线 。 


了 UBLISH 消 息 ; 当 节 点 接收 到 一 个 PUBLISH 命 令 时 ， 节 点 会 执行 
这 个 命令 ， 并 辐 集 群 广播 一 条 PUBLISH 消 息 ， ON 这 条 
PUBLISH 消 息 恩 的 节点 都 会 执行 相同 的 PUBLISH 命 


一 条 消息 由 消息 头 (header) 和 消息 正文 (data) 组 成 ， 接 下 来 的 
内 容 将 首先 介绍 消息 头 ， 然 后 再 分 别 介绍 上 面 提 到 的 五 种 不 同类 型 的 消 
息 正 文 。 


17.7.1 消息 头 


节点 发 送 的 所 有 消息 都 由 一 个 消息 涉 包 里 ， 消 息 头 除了 包含 消息 正 
文 之 外 ， 还 记录 了 消 妃 发 送 者 自身 的 一 些 信 息 ， 因 为 这 些 信息 也 会 被 消 
奶 接 收 者 用 到 ， 所 以 严格 来 讲 ， 我 们 可 以 认为 消息 头 本 吴 也 是 消 妃 的 


部 分 。 














每 个 消息 头 都 由 一 个 cluster.hMclusterMsg 结 构 表示 : 





typedef struct { 
// 


消息 的 长 度 总 EK 度 和 消息 正文 的 长 度 ) 
uint32_t tot 
// 


消息 的 类 型 
uint16_t type; 
a 
消息 正文 包含 的 节点 信息 数量 
a 
全 全 为 CE 
、 .Pon 
种 G 


ip 
夫 议 消 | 外 时 使 用 
J nt t count; 

















发 者 所 处 的 配置 纪元 
pri t currentEpoch; 


如 打发 送 痢 是 -个 主 节点 ， 那 么 这 里 记录 的 是 发 送 者 的 配置 纪元 


a 
如 果 发 送 者 是 一 个 从 节点 ， 那 么 这 里 记录 的 是 发 送 者 正在 复制 的 主 节点 的 配置 纪元 
由 t configEpoch; 


发 & 的 名 字 (ID 
) 
char sender[REDIS_ CLUSTER NAMELEN]; 
// 


发 送 者 目前 的 槽 指派 信息 
unsigned char mySslots[REDIS_CLUSTER_SLOTS/V8] ; 


Yi 
如 果 发 送 者 是 一 个 从 节点 ， 那 么 这 里 记录 的 是 发 送 者 正在 复制 的 主 节点 的 名 字 
de 


如 果 发 送 者 是 一 个 主 节 点 ， 那 么 这 里 记录 的 是 REDIS_NODE_NULL_NAME 
7 





char slaveof [REDIS_ CLUSTER_NAMELEN]; 
A 


发 送 者 的 端口 号 
uint16_t port 
// 
发 送 者 的 标识 值 
uint16 _t flags; 
a 
发 送 者 所 处 集群 的 状态 
unsigned char state; 
// 
消息 的 正文 (或 者 说 ， 内 容 》 
union clusterMsgData data; 
} clusterMsg; 





clusterMsg.data 属 性 指向 联合 cluster.h/clusterMsgData， 这 个 联合 就 
是 消息 的 正文 : 





union clusterMsgData { 
// MEET 


、PONG 
消息 都 包含 两 个 

// clusterMsgDataGossip 
结构 


{ 
clusterMsgDataFail about; 
} fail; 
// PUBLISH 
消息 的 正文 
struct { 
clusterMsgDataPublish msg; 
} publish; 


// 
其 他 消息 的 正文 . . ， 
}; 





clusterMsg 结 构 的 currentEpoch、sender、myslots 等 属性 记录 了 发 送 
者 自身 的 节点 信息 ， 接 收 者 会 根据 这 些 信 息 ， 在 自己 的 
clusterState.nodes 字 典 里 找到 发 送 者 对 应 的 clusterNode 结 构 ， 并 对 结构 进 
行 更 新 。 


举 个 例子 ， 通 过 对 比 接收 者 为 及 送 者 记录 的 槽 指派 信息 ， 以 及 发 送 
者 在 消息 头 的 myslots 属 性 记录 的 槽 指派 信息 ， 接 收 者 可 以 知道 发 送 者 的 
槽 指派 信息 是 否 发 生 了 变化 。 


又 或 者 说 ， 通 过 对 比 接收 者 为 及 送 者 记录 的 标识 值 ， 以 及 发 送 者 在 
消息 头 的 flags 属 性 记录 的 标识 值 ， 接 收 者 可 以 知道 友 送 者 的 状态 和 角色 
和 是否 发 生 了 变化 ， 例 如 节点 状态 由 原来 的 在 线 变 成 了 下 线 ， 或 者 由 主 节 
点 变 成 了 从 节点 等 等 。 


17.7.2 ”MEET、PING、PONG 消 息 的 实现 

















Redis 集 群 中 的 各 个 节点 通过 Gossip 协 议 来 交换 各 自 关 于 不 同 节点 的 
状态 信息 ， 其 中 Gossip 协 议 由 MEET、PING、PONG 三 种 消息 实现 ， 这 
三 种 消息 的 正文 都 由 两 个 cluster.h/clusterMsgDataGossip 结 构 组 成 : 





union clusterMsgData { 
FA 


、 G 
消息 都 包含 两 个 
// clusterMsgDataGossip 
结构 
clusterMsgDataGossip gossip[1]; 
} ping; 


// 
其 他 消息 的 正文 ... 
}; 





因为 MEET、PING、 PONG 三 种 消息 都 使 用 相同 的 消息 正文 ， 所 以 
节点 通过 消息 头 的 type 属 性 来 判断 一 条 消息 是 MEET 消 息 、PING 消 息 还 
是 PONG 消 息 。 


每 次 发 送 MEET、PING、PONG 消 息 时 ， 发 送 者 都 从 自己 的 已 知 节 
点 列表 中 随机 选 出 两 个 节点 (可 以 是 主 节点 或 者 从 节点 ) ， 并 将 这 两 个 
被 选中 节点 的 信息 分 另 别 保 存 到 两 个 clusterMsgDataGossip 吉 构 里 面 。 


ue a oD 吉 构 记录 了 被 选中 节点 的 名 字 ， 发 送 者 与 被 选 
中 节点 最 后 一 次 发 送 和 接收 PING 消 息 和 PONG 消 息 的 时 间 惟 ， 被 选中 节 
点 的 耳 地 址 和 端口 号 ， 以 及 被 选中 节点 的 标识 值 ; 








typedef struct { 


4 名 字 

char nodename[REDIS_CLUSTER_NAMELEN] ; 
最 后 一 次 向 该 节点 发 送 PING 
消息 的 时 间 惟 
uint32_t ping_sent 
最 后 一 次 从 该 节点 接收 到 PONG 

息 的 时 间 戳 

uint32_t pong_received; 
党 
节点 的 IP 
char ip[16]; 
天 


节点 的 端口 号 
uint16_t port 
// 
节点 的 标识 值 
Uint16 Tt flags: 
} clusterMsgDataGossip; 








en | 


当 接 收 者 收 到 MEET、PING、PONG 消 息 时 ， 接 收 者 会 访问 消息 正 
文中 的 SR 吉 构 ， 并 根据 自己 是 否认 识 
clusterMsgDataGossip 结 构 中 记录 的 被 选中 节点 来 选择 进行 哪 种 操作 : 


-如 果 被 选中 节点 不 存在 于 接收 者 的 已 知 节 点 列表 ， 那 么 说 明 接 收 
首 古 是 第 E 局 ， 0 吉 构 中 记录 的 IP 地 址 和 端 


-如 果 被 选中 节点 已 经 存在 于 接收 者 的 已 知 节点 列表 ， 那 么 说 明 接 
收 者 之 前 已 经 与 被 选中 市 点 进 和 J 过 接触， 接收 者 将 根据 
Ouse at ops 吉 构 记录 的 信息 ， 对 被 选中 节点 所 对 应 的 
clusterNode 结 构 进 行 更 新 。 


举 个 发 送 PING 消 妃 和 返回 PONG 消 息 的 例子 ， 假 设 在 一 个 包含 A、 
B、C、D、E、F 六 个 节点 的 集群 里 : 


-节点 A 向 节点 DD 发 送 PING 消 息 ， 并 且 消 息 里 面包 含 了 节点 B 和 节点 
C 的 信息 ， 当 节点 D 收 到 这 条 PING 消 息 岂 时 ， 它 将 更 新 自己 对 节点 B 和 节 
点 C 的 认识 。 

之后， 节点 DD 将 向 节点 A 返回 一 条 PONG 消 息 ， 并 且 消 息 里 面包 含 
了 节点 E 和 节点 F 的 消息 ， 当 节点 A 收 到 这 条 PONG 消 息 时 ， 它 将 更 新 自 
已 对 节点 E 和 节点 E 的 认识 。 

整个 通信 过 程 如 图 17-41 所 示 。 
有 和 入 所 的 NG 总 

返回 包含 节点 E 和 节点 了 信息 的 PONG 消息 


图 17-41 一 个 PING-PONG 消 息 通 信和 示例 





























17.7.3 ”FAIL 消息 的 实现 


当 集 群 里 的 主 节点 A 将 主 节点 B 标 记 为 已 下 线 (FAIL) 时 ， 主 节点 
A 将 向 集群 广播 一 条 关于 主 节点 B 的 FAIL 消 息 ， 所 有 接收 到 这 条 FAIL 消 
晨 的 节点 都 会 将 主 节点 B 标 记 为 已 下 线 。 





在 集群 的 节点 数量 比较 大 的 情况 下 ， 单 纯 使 用 Gossip 协 议 来 传播 节 
点 的 已 下 线 信 息 会 给 节点 的 信息 更 新 带 来 一 定 延 迟 ， 因 为 Gossip 协 议 消 
恩 通 常 需 要 一 段 时 间 才 能 传播 至 整个 集群 ， 而 发 送 FAIL 消 息 可 以 让 集 
群 里 的 所 有 市 把 并 即 知 道 系 个 主 节点 已 下 线 ， 从 而 尽快 判断 是 否 需 要 将 
集群 标记 为 下 线 ， 又 或 者 对 下 线 主 节点 进行 故障 转移 。 


FAIL 消 息 的 正文 由 cluster.h/clusterMsgDataFail 结 构 表 示 ， 这 个 结构 
只 包含 一 个 hodename 属 性 ， 该 属性 记录 了 已 下 线 节 点 的 名 字 : 

















typedef struct { 
char nodename[REDIS_ CLUSTER_ NAMELEN]; 
} clusterMsgDataFail; 





因为 集群 里 的 所 有 节点 都 有 一 个 独一无二 的 名 字 ， 所 以 FAIL 消 奶 
里 面 只 需要 保存 下 线 节点 的 名 字 ， 接 收 到 消 轧 的 节点 束 可 以 根据 这 个 名 
字 来 判断 是 哪个 布点 下 线 了 了。 


举 个 例子 ， 对 于 包含 7000、7001、7002、7003 四 个 主 节点 的 集群 来 
说 : 














.如 果 主 节点 7001 发 现 主 节点 7000 已 下 线 ， 那 么 主 节点 7001 将 向 主 
节点 7002 和 主 节 点 7003 发 送 FA 了 消息 ， 其 中 FA 下 消 息 中 包含 的 节点 名 
字 为 主 节 点 7000 的 名 字 ， 以 此 来 表示 主 节 点 7000 已 下 线 。 


:当主 节点 7002 和 主 节 点 7003 都 接收 到 主 节 点 7001 发 送 的 FAIL 消 息 
时 ， 它 们 也 会 将 主 节 点 7000 标 记 为 已 下 线 。 


-因为 这 时 集群 已 经 有 超过 一 半 的 主 市 点 认为 主 市 把 7000 已 下 线 ， 
所 以 集群 剩 下 的 几 个 主 节点 可 以 判断 是 否 需 要 将 集群 标记 为 下 线 ， 又 或 
者 开始 对 主 节点 7000 进 行 故障 转移 。 


图 17-42 至 图 17-44 展 示 了 节点 发 送 和 接收 FAIL 消 息 的 整个 过 程 。 





图 17-43 ”节点 7001 向 集群 广播 FAIL 消 息 





图 17-44 节 节 丰 7002 和 和 节 点 7003 也 将 节 点 7000 标 记 为 己 下 线 
17.7.4 PUBLISH 消 息 的 实现 
当 客 户 端 向 集群 中 的 某 个 节点 发 送 命令 





PUBLISH <channel> <message> 





的 时 候 ， 接 收 到 PUBLISH 命 令 的 节点 不 仅 会 向 channe] 频 道 发 送 消 
息 message， 它 还 会 问 集 群 广播 一 条 PUBLISH 消 息 ， 所 有 接收 到 这 条 
PUBLISH 消 息 的 节点 都 会 同 channel 频 道 发 送 message 消 息 最 。 


换 句 话说 ， 回 集群 中 的 茶 个 节点 发 送 命令 : 





PUBLISH <channel> <message> 





将 导致 集群 中 的 所 有 节点 都 问 channel 频 道 友 送 message 消 居 。 


举 个 例子 ， 对 于 包含 7000、7001、7002、7003 四 个 节点 的 集群 来 
说 ， 如 果 节 点 7000 收 到 了 客户 端 发 送 的 PUBLISH 命 令 ， 那 么 节点 7000 将 
癌 7001、7002、7003 三 个 节点 发 送 PUBLISH 消 息 ， 如 图 17-45 所 示 。 





PUBLISH 
















PUBLISH PUBLISH 
命令 消 县 






PUBLISH 
消 县 






图 17-45 “接收 到 PUBLISH 命 令 的 节点 7000 回 集群 广播 PUBLISH 消 息 


PUBLISH 消 息 的 正文 由 cluster.h/clusterMsgDataPublish 结 构 表 示 : 





typedef struct { 
uint32_t channel_len; 
Uint32_t message_len; 


// 
定义 为 8 
字 节 只 是 为 了 对 齐 其 他 消息 结构 


/ 
实际 的 长 度 由 保存 的 内 容 决 定 
unsigned char bulk_data[8]; 
ich， 


} clusterMsgDataPublish; 





clusterMsgDataPublish 结 构 的 bulk_data 属 性 是 一 个 字 节 数组 ， 这 个 
字 节 数组 保存 了 客户 端 通过 PUBLISH 命 令 发 送 给 节点 的 channel 参 数 和 
message 参 数 ， 而 结构 的 channel_len 和 message_len 则 分 别 保存 了 channel 
参数 的 长 度 和 message 参 数 的 长 度 : 


:其 中 bulk_data 的 0 字 节 至 channel len-1 字 节 保 存 的 是 channel 参 数 。 





:而 bulk_data 的 channel_len 字 节 人 至 channel len+message_len-1 字 节 保 
存 的 则 是 message 人 参数 。 


举 个 例子 ， 如 果 节 点 收 到 的 PUBLISH 命 令 为 : 


PUBLISH "news.it" "hello" 





那么 节点 发 送 的 PUBLISH 消 息 的 clusterMsgDataPublish 结 构 将 如 图 
17-46 所 示 : 其 中 bulk_data 数 组 的 前 七 个 字 节 保存 了 channel 参 数 的 
值 "'news.it"， 而 bulk_data 数 组 的 后 五 个 字 节 则 保存 了 message 参 数 的 
值 "hello"。 


clusterMsgDatapublish 


7 


message len 
9 
mm Tel oT- Tale Te Te Tale 


图 17-46 ”clusterMsgDataPublish 结 构 示 例 
















为 什么 不 直接 向 节点 广播 PUBLISH 命 令 


实际 上 ， 要 让 集群 的 所 有 节点 都 执行 相同 的 PUBLISH 命 令 ， 最 
简单 的 方法 束 是 同 所 有 节点 广播 相同 的 PUBLISH 命 令 ， 这 也 是 
Redis 在 复制 PUBLISH 命 令 时 所 使 用 的 方法 ， 不 过 因为 这 种 做 法 并 
不 符合 Redis 集 群 的 “各 个 节点 通过 发 送 和 接收 消息 来 进行 通信 ”这 一 
规则 ， 所 以 节点 没有 采取 广播 PUBLISH 命 令 的 做 法 。 





17.8 重点 回顾 
.节点 通过 握手 来 将 其 他 节点 添加 到 自己 所 处 的 集群 当中 。 


-集群 中 的 16384 个 槽 可 以 分 别 指派 给 集群 中 的 各 个 节点 ， 每 个 节点 
都 会 记录 哪些 槽 指派 给 了 上 自己 ， 而 哪些 槽 又 被 指派 给 了 其 他 市 点 。 








:节点 在 接 到 一 个 命令 请 求 时 ， 会 先 检 查 这 个 命令 请 求 要 处 理 的 键 
所 在 的 槽 是 否 由 自己 负责 ， 如 果 不 是 的 话 ， 节 点 将 向 客户 端 返回 一 个 
MOVED 错 误 ，MOVED 错 误 携 带 的 信息 可 以 指引 客户 端 转 问 至 正在 负 
贡 相 关 酸 的 节点 。 


“对 Redis 集 群 的 重新 分 片 工 作 是 由 redis-trib 负 责 执 行 的 ， 重 新 分 片 
的 关键 是 将 属于 茶 个 槽 的 所 有 键 值 对 从 一 个 节点 转移 至 另 一 个 节点 。 


如果 节 点 A 正 在 迁移 模 永 节点 B， 那 么 当 节 点 A 没 能 在 自己 的 数据 
库 中 找到 命令 指定 的 数据 库 键 时 ， 节 点 A 会 回 客户 端 返回 一 个 ASK 错 
误 ， 指 引 客户 端 到 节点 B 继 续 查 找 指定 的 数据 库 键 。 


-MOVED 错 误 表 示 权 的 负责 权 已 经 从 一 个 节点 转移 到 了 为 一 个 市 
点 ， 而 ASK 错 误 只 是 两 个 节点 在 迁移 槽 的 过 程 中 使 用 的 一 种 临时 措施 。 


集群 里 的 从 市 点 用 于 复制 主 节点 ， 并 在 主 节操 下 线 时 ， 代 将 主 节 
点 继续 处 理 命令 请 求 。 


-集群 中 的 节点 通过 发 送 和 接收 消息 来 进行 通信 ， 币 见 的 消息 包括 
MEET、PING、PONG、PUBLISH、FAIL 五 种 。 
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独立 功能 的 实现 


第 18 半 ”发 布 与 订阅 


Redis 的 发 布 与 订阅 功能 由 PUBLISH、SUBSCRIBE、PSUBSCRIBE 
等 命令 组 成 。 


通过 执行 SUBSCRIBE 命 令 ， 客户 办 可 以 订阅 一 个 或 多 个 频 着 ， 从 
而 成 为 这 些 频道 的 订阅 者 (subscriber) : 每 当 有 其 他 客户 端 向 被 订阅 的 
频道 发 送 消 息 (message) 时 ， 频 道 的 所 有 订阅 者 都 会 收 到 这 条 消息 。 


举 个 例子 ， 假 设 A、B、C 三 个 客户 端 都 执行 了 命令 : 


3 





SUBSCRIBE "news.it" 








那么 这 三 个 客户 端 就 是 "mews.it" 频 道 的 订阅 者 ， 如 图 18-1 所 示 。 


news . it 频道 





图 18-1 ”news.it 频 道 和 它 的 三 个 订阅 者 


如 果 这 时 茶 个 客户 端 执 行 命令 





PUBLISH "news.it" "hello" 





问 "news.it" 频 道 肥 送 消 忆 "hello"， 那么 "news.it" 的 三 个 订阅 者 都 将 收 
到 这 条 消息 ， 如 图 18-2 所 示 。 


PUBLISH "news it" "nello" 
| 


news .it 频道 


” ™、 
一 


TE | = 呈 短 和 天 辣 ” 
人 -hellor “x 
客户 端 A 客户 端 B 客户 端 C 


图 18-2 ”向 news.it 频 道 发送 消 息 


除了 订阅 频道 之 外 ， 客 户 并 还 可 以 通过 执行 PSUBSCRIBE 命 令 订 阅 
一 个 或 多 个 模式 ， 从 而 成 为 这 些 模式 的 订阅 者 : 每 当 有 其 他 客户 端 问 某 
个 频道 发 送 消息 时 ， 消 妃 不 仅 会 被 发 送 给 这 个 频 关 的 所 有 订阅 者 ， 它 还 
会 被 发 送 给 所 有 与 这 个 频道 相 匹 配 的 模式 的 订阅 者 。 





图 18-3 ”频道 和 模式 的 订阅 状态 
举 个 例子 ， 假 设 如 图 18-3 所 示 : 


.客户 端 A 正 在 订阅 频道 "news.it" 。 


.客户 端 B 正 在 订阅 频道 "news.et"。 


.客户 端 C 和 客户 端 D 正 在 订阅 与 "news.it" 频 道 和 "news.et" 频 道 相 匹 
配 的 模式 "news.[iejt"。 


如 林 这 时 茶 个 客户 端 执 行 命 





PUBLISH "news.it" "hello" 





向 "news.it" 频 道 发 送 消 息 "hello"， 那 么 不 仅 正在 订阅 "news.it" 频 道 的 
客户 端 A 会 收 到 消息 ， 客 尸 端 C 和 客户 疹 D 也 同样 会 收 到 消 电 ， 因 为 这 两 
个 客户 端正 在 订阅 匹配 "news. it" 频 道 的 "news.[ie]t" 模 式 ， 如 图 18- 4 所 
Fi 





PUBLISH "news.it" "hello" 


news . it 频道 


/ "hello”  、 匹 配 


news . [ie]t 模 式 
"hellp" 六 “hellor 


图 18-4 将 消息 发 送 给 频道 的 订阅 者 和 匹配 模式 的 订阅 者 〈1) 
与 此 类 似 ， 如 果 某 个 客户 端 执行 命令 









PUBLISH "news.et" "world" 





向 "news.et" 频 道 发 送 消 息 "world"， 那 么 不 仅 正 在 订阅 "news.et" 频 道 
的 客户 端 B 会 收 到 消息 ， 客 户 端 C 和 客户 端 D 也 同样 会 收 到 消息 ， 因 为 这 
两 个 客户 前 正在 订阅 匹配 "hews. et" 频 道 的 "news.[ie]t" 模 式 ， 如 图 18- 5 所 


不 。 


PUBLISH "news.et" "world" 


Y 


news .et 频道 


9 匹配 "world" 


news . it 频道 






Hd 


“HORLO i ~"world" 


图 18-5 ”将 消息 发 送 给 频道 的 订阅 者 和 [匹配 模式 的 订阅 者 (2) 


本 章 接 下 来 的 内 容 将 首先 介绍 订 二 命令 和 退 订 
频道 的 UNSUBSCRIBE 命 今 令 的 实现 原理 ， 然 后 介绍 订阅 模式 的 
PSUBSCRIBE 命 令 和 退 订 模式 的 PUNSUBSCRIBE 命 命令 的 实现 原理 。 


在 介绍 完 以 上 四 个 命令 的 实现 原理 之 后 ， 本 章 会 对 PUBLISH 命 令 的 
原理 进行 ， 说 明 消 息 是 如 何 发 送 给 频道 的 订阅 者 以 及 模式 的 订 
阅 者 的 。 


到 本 章 将 对 Redis 2.8 新 引入 的 PUBSUB 命 令 的 三 个 子 命令 进行 
， 并 说 明 这 三 个 子 命令 的 实现 原理 。 


18.1 频道 的 订阅 与 退 订 
当 一 个 客户 端 执行 SUBSCRIBE 命 令 订 阅 某 个 或 菜 些 频道 的 时 候 ， 
这 个 客户 端 与 被 订阅 频道 之 间 就 建立 起 了 一 种 订阅 关系 。 


Redis 将 所 有 频道 的 订阅 关系 都 保存 在 服务 器 状态 的 pubsub_channels 
字典 里 面 ， 这 个 字典 的 键 是 某 个 被 订阅 的 频道 ， 而 键 的 值 则 是 一 个 链 
表 ， 链 表 里 面 记 录 了 所 有 订阅 这 个 频道 的 客户 疹 : 





struct redisServer { 
2 


a 
保存 所 有 频道 的 订阅 关系 
dict *pubsub_channels; 


}; 





比如 说 ， 图 18-6 束 展示 了 一 个 pubsub_channels 字 典 示 例 ， 这 个 字典 
记录 了 以 下 信息 : 


:client-1、dlient-2、dlient-3 三 个 客户 端正 在 订阅 "news.it" 频 道 。 
.客户 端 client-4 正 在 订阅 "news.sport" 频 道 。 


client-5 和 client-6 两 个 客户 端正 在 订阅 "news.business" 频 道 。 
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图 18-6 ”一 个 pubsub_channels 字 典 示例 





"news .buslnessn" 





18.1.1 订阅 频道 


每 当 客 户 端 执行 SUBSCRIBE 命 令 订 阅 茶 个 或 条 些 频道 的 时 候 ， 服 
务 占 都 会 将 客户 并 与 被 订阅 的 频道 在 pubsub_channels 字 — 典 中 进行 天 联 。 


根据 频道 是 否 已 经 有 其 他 订阅 者 ， 关 联 操 作 分 为 两 种 情况 执行 : 


:如 果 频 道 已 经 有 其 他 订阅 者 ， 那 么 它 在 pubsub_channels 字 典 中 必 
0 向 者 链表 ， 程 序 唯一 要 做 的 丈 是 将 客户 端 添 加 到 订阅 者 链 
和 末尾 。 


:如 果 频 道 还 未 有 任何 订阅 者 ， 那 么 它 必然 不 存在 于 
pubsub_channels 字 典 ， 程 序 首先 要 在 pubsub_channels 字 典 中 为 频道 创建 
一 个 键 ， 并 将 这 个 键 的 值 设 置 为 空 链表 ， 然 后 再 将 客户 端 添加 到 链表 ， 
成 为 链表 的 第 一 个 元 素 。 


举 个 例子 ， 假 设 服务 器 pubsub_channels 字 典 的 当前 状态 如 图 18-6 所 
示 ， 那 么 当 客 户 端 client-10086 执 行 命令 











SUBSCRIBE "news.sport" "news.movie" 





之 后 ，pubsub_channels 字 典 将 更 新 至 图 18-7 所 示 的 状态 ， 其 中 用 虚 
线 包 围 的 是 新 添加 的 节点 : 


.更 新 后 的 pubsub_channels 字 典 新 增 了 "news.movie" 键 ， 该 键 对 应 的 
链表 值 只 包含 一 个 client-10086 节 点 ， 表 示 目 前 只 有 client-10086 一 个 客户 
端 在 订阅 "news.movie" 频 道 。 


:至 于 原本 就 已 经 有 客户 并 在 订阅 的 "news.sport" 频 道 ，client-10086 
的 节点 放 在 了 频道 对 应 链表 的 末尾 ， 排 在 client-4 节 点 的 后 面 。 
















client-3 
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ee 
图 18-7 执行 SUBSCRIBE 之 后 的 pubsub_channels 字 典 


SUBSCRIBE 命 令 的 实现 可 以 用 以 下 伪 代 码 来 描述 : 





def subscribe(*all input_channels): 
# 


人 遍历 输入 的 所 有 频道 
for channel in all input_channels: 
# 


如 果 channel 

不 存在 于 pubsub_channels 

字典 (没有 任何 订阅 者 》 
# 

那么 在 字典 中 添加 channel 

键 ， 并 设置 它 的 值 为 空 链表 
if channel not in server.pubsub_channels: 
server.pubsub_channels[channel] = [] 








# 
将 订阅 者 添加 到 频道 所 对 应 的 链表 的 末尾 
server.pubsub_channels[channe1].append(client) 





18.1.2” 退 订 频 道 

UNSUBSCRIBE 命 令 的 行为 和 SUBSCRIBE 命 令 的 行为 正好 相反 ， 
当 一 个 客户 端 退 订 某 个 或 某 些 频道 的 时 候 ， 服 务 器 将 从 pubsub_channels 
中 解除 客户 端 与 被 退 订 频道 之 间 的 关联 : 


:程序 会 根据 被 退 订 频道 的 名 字 ， 在 pubsub_channels 字 — 典 中 找到 频 
道 对 应 的 订阅 者 链表 ， 然 后 从 订阅 者 链表 中 删除 退 订 客户 端的 信息 。 


如 果 删 除 退 订 客 户 端 之 后 ， 频 道 的 订阅 者 链表 变 成 了 空 链表 ， 那 




















么 说 明 这 个 频道 已 经 没有 任何 订阅 者 了 ， 程 序 将 从 pubsub_channels 字 典 
中 删除 频道 对 应 的 键 。 


举 个 例子 ， 假 设 pubsub_channels 的 当前 状态 如 图 18-8 所 示 ， 那 么 当 
客户 端 client-10086 执 行 命 令 





UNSUBSCRIBE "news .Sport" "news .movie" 





之 后 ， 图 中 用 虚线 包围 的 两 个 节点 将 被 删除 〈 如 图 18-9 所 示 ) : 


.在 pubsub_channels 字 典 更 新 之 后 ，client-10086 的 信息 已 经 
从 "news.sport" 频 道 和 "news.movie" 频 道 的 订阅 者 链表 中 被 删除 了 。 


: 男 外 ， 因 为 删除 dient-10086 之 后 ， 频 道 "news.movie" 已 经 没有 任何 
订阅 者 ， 因 此 键 "news.movie" 也 从 字典 中 被 删除 了 。 
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图 18-8 执行 UNSUBSCRIBE 之 前 的 pubsub_channels 字 典 
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图 18-9 执行 UNSUBSCRIBE 之 后 的 pubsub_channels 字 典 


UNSUBSCRIBE 命 令 的 实现 可 以 用 以 下 伪 代 码 来 描述 : 





def unsubscribe(*all input_channels): 
# 


遍历 要 退 订 的 所 有 频道 
for channel in all_ input_channels: 
# 
在 订阅 者 链表 中 删除 退 订 的 客户 端 
server .pubsub_channels[channel] .remove(client) 
# 
如 果 频 道 已 经 没有 任何 订阅 者 了 《订阅 者 链表 为 空 ) 


# 

那么 将 频道 从 字典 中 删除 
if len(server.pubsub_channels[channel]) == 0: 
server .pubsub_channels.remove(channel) 








一 = 


18.2 ”模式 的 订阅 与 退 订 


前 面 说 过 ， 服 务 器 将 所 有 频道 的 订阅 关系 都 保存 在 服务 器 状态 的 
pubsub_channels 属 性 里 面 ， 与 此 类 似 ， 服 务 器 也 将 所 有 模式 的 订阅 关系 
都 保存 在 服务 器 状态 的 pubsub_patterns 属 性 里 面 : 





Struct redisServer { 
ES 


// 
保存 所 有 模式 订阅 关系 

list *pubsub_patterns; 
Es 


}; 





pubsub_patterns 属 性 是 一 个 链表 ， 链 表 中 的 每 个 市 点 都 包含 着 一 个 
pubsub ”Pattern 结 构 ， 这 个 结构 的 pattem 属 性 记录 了 被 订阅 的 模式 ， 而 
client 属 性 则 记录 了 订阅 模式 的 客户 端 : 








typedef struct pubsubPattern { 


订阅 模式 的 客户 端 
redisClient *client; 
// 

被 订阅 的 模式 
robj *pattern; 

} pubsubPattern; 





图 18-10 是 一 个 pubsubPattern 结 构 示 例 ， 它 显示 客户 端 client-9 正 在 订 


阅 模 式 "news.*"。 
pubsubPattern 


client 
client-9 


Dattern 
"news.*" 





图 18-10 ”pubsubPattem 结 构 示例 





图 18-11 展 示 了 一 个 pubsub_patterns 链 表示 例 ， 这 个 链表 记录 了 以 下 


信 息 : 
.客户 端 client-7 正 在 订阅 模式 "music.*" 。 
.客户 端 client-8 正 在 订阅 模式 "book.*"。 


.客户 端 client-9 正 在 订阅 模式 "news.*"。 


redlsServer 


pubsubpattern pubsubpattern 


client client 
pubsup patterns cllent-7 cllent-8 
pattern pattern 

musi "book,*" 


图 18-11 pubsub_patterns 链 表示 例 


18.2.1 订阅 模式 


pubsubpattern 


client 
client-9 


pattern 
"news ， X1 








每 当 客 户 端 执行 PSUBSCRIBE 命 令 订 阅 某 个 或 某 些 模式 的 时 候 ， 服 


务 嚣 会 对 每 个 被 订阅 的 模式 执行 以 下 两 个 操作 : 


1) 新 建 一 个 pubsubPattern 结 构 ， 将 结构 的 pattern 属 性 设置 为 被 订阅 


的 模式 ，client 属 性 设置 为 订阅 模式 的 客户 端 。 


2) 将 pubsubPattern 结 构 添 加 到 pubsub_patterns 链 表 的 表 尾 。 举 个 例 
子 ， 假 设 服务 器 中 pubsub_patterns 链 表 的 当前 状态 如 图 18-12 所 示 。 





reasserer 
pubsub patterns 


图 18-12 ”执行 PSUBSCRIBE 命 令 之 前 的 pubsub_patterns 链 表 


那么 当 客 户 端 client-9 执 行 命令 



















pattern 
"muslc,. *" 


pattern 
"oO 





PSUBSCRIBE "news .*" 





之 后 ，pubsub_patterns 链 表 将 更 至 新 图 18-13 所 示 的 状态 ， 其 中 用 虚 
线 包 围 的 是 新 添加 的 pubsubPattern 结 构 。 
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图 18-13 ”执行 PSUBSCRIBE 命 令 之 后 的 pubsub_patterns 链 表 
PSUBSCRIBE 命 令 的 实现 原理 可 以 用 以 下 伪 代 码 来 描述 : 





def psubscribe(*all_ input_patterns): 
# 


遍历 输入 的 所 有 模式 
for pattern in all input_patterns: 


# 
创建 新 的 pubsubPattern 
结构 
# 
记录 被 订阅 的 模式 ， 以 及 订阅 模式 的 客户 端 
pubsubPattern = create_new_pubsubPattern( ) 
pubsubPattern.client = client 


pubsubPattern.pattern = pattern 


# 
将 新 的 pubsubPattern 
追加 到 pubsub_patterns 


server.pubsub_patterns.append(pubsubPattern) 





18.2.2” 退 订 模 式 

模式 的 退 订 命令 PUNSUBSCRIBE 是 PSUBSCRIBE 命 令 的 反 操 作 : 
当 一 个 客户 端 退 订 某 个 或 某 些 模式 的 时 候 ， 服 务 器 将 在 pubsub_patterns 
链表 中 查找 并 删除 那些 pattern 属 性 为 被 退 订 模式 ， 并 且 client 属 性 为 执行 
退 订 命令 的 客户 端的 pubsubPattern 结 构 。 


举 个 例子 ， 假 设 服务 器 pubsub_patterns 链 表 的 当前 状态 如 图 18-14 所 


不 。 
ee 
pubsub patterns 


图 18-14 ”执行 PUNSUBSCRIBE 命 令 之 前 的 pubsub_patterns 链 表 


那么 当 客 户 端 client-9 执 行 命令 
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pattern 
"music,*" 


pattern 
"book 火 趾 


pattern 
"news 火 咱 









PUNSUBSCRIBE "news.*" 





之 后 ，dlient 属 性 为 client-9，pattern 属 性 为 "news.*" 的 pubsubPattern 
结构 将 被 删除 ，pubsub_patterns 链 表 将 更 新 至 图 18-15 所 示 的 样子 。 
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pubsubPattern pubsubPattern 


client client 
pubsub patterns client-7 client-8 


pattern pattern 
DB 人 六 Shao, a 





图 18-15 ”执行 PUNSUBSCRIBE 命 令 之 后 的 pubsub_patterns 链 表 


PUNSUBSCRIBE 命 令 的 实现 原理 可 以 用 以 下 伪 代 码 来 描述 : 





def punsubscribe(*all input_patterns): 
# 


遍历 所 有 要 退 订 的 模式 
for pattern in all_input_patterns : 
# 


遍历 pubsub_patterns 
链表 中 的 所 有 pubsubPattern 

结构 

for pubsubPattern in server.pubsub_patterns: 


# 
如 果 当 前 客户 端 和 pubsubPattern 
记录 的 客户 端 相同 


# 
并 且 要 退 订 的 模式 也 和 pubsubPattern 
记录 的 模式 相同 
if client == pubsubPattern.client and \ 
pattern == pubsubPattern.pattern: 











# 
那么 将 这 个 pubsubPattern 
从 链表 中 删除 
server .pubsub_patterns .remove(pubsubPattern) 





CC 人 CC 人 人 人 CCC 人 CC 人 人 一 


18.3 ”发送 消 忆 


当 一 个 Redis 客 户 端 执行 PUBLISH<channel><message> 命 令 将 消息 
message 发 送 给 频道 channel 的 时 候 ， 服 务 器 需要 执行 以 下 两 个 动作 : 


1) 将 消息 message 发 送 给 channel 频 道 的 所 有 订阅 者 。 


2) 如 果 有 一 个 或 多 个 模式 pattern 与 频道 channel 相 匹配 ， 那 么 将 消 
息 message 发 送 给 pattermm 模 式 的 订阅 者 。 


接 下 来 的 两 个 小 节 将 分 别 介 绍 这 两 个 动作 的 实现 方式 。 
18.3.1 将 消息 发 送 给 频道 订阅 者 


为 服务 器 状态 中 的 pubsub_channels 字 典 记 录 了 所 有 频道 的 订阅 关 
系 ， 所 以 为 了 将 消息 发 送 给 channel 频 道 的 所 有 订阅 者 ，PUBLISH 命 令 
要 做 的 就 是 在 pubsub_channels 字 典 里 找到 频道 channel 的 订阅 者 名 单 〈 一 
个 链表 ) ， 然 后 将 消息 发 送 给 名 单 上 的 所 有 客户 端 。 举 个 例子 ， 假 设 服 
务 器 pubsub_channels 字 典当 前 的 状态 如 图 18-16 所 示 。 















pubsub channels 






client-3 






"news.1t" 


"news .sport" 


"news ,business" 


| ee 


图 18-16 ”pubsub_channels 字 典 
如 有 果 这 时 某 个 客户 端 执 行 命令 

















PUBLISH "news.it" "hello" 


那么 PUBLISH 命 令 将 在 人 channels 字 典 中 和 碍 找 键 "news.it" 对 应 
的 链表 值 ， 并 通过 壳 历 链 表 将 消 奶 hello" 发 送 给 "news. it" 频 道 的 三 个 订 
阅 者 : client-1、client-2 和 client-3。 


PUBLISH 命 令 将 消息 发 送 给 频道 订阅 者 的 方法 可 以 用 以 下 伪 代 码 来 
苗 述 : 














def channel_ publish(channel, message): 
# 


如 果 channel 
键 不 存在 于 pubsub_channels 
字典 中 


# 
那么 说 明 channel 
频道 没有 任何 订阅 者 
# 
程序 不 做 发 送 动作 ， 直 接 返 回 


if channel not in server.pubsub_channels: 
机 





运行 到 这 里 ， 说 明 channel 
有 个 订阅 者 


程序 遍历 channel 
频道 的 订阅 者 链表 


# 
将 消息 发 送 给 所 有 订阅 者 
for subscriber in server.pubsub_channels[channel]: 
send_message(subscriber, message) 











18.3.2 ”将 消息 发 送 给 模式 订阅 者 


为 服务 器 状态 中 的 pubsub_patterns 链 表 记 录 了 所 有 模式 的 订阅 关 
系 ， 所 以 为 了 将 消息 发 送 给 所 有 与 channel 频 道 相 匹 配 的 模式 的 订阅 者 ， 
PUBLISH 命 令 要 做 的 束 是 届 历 整个 pubsub_patterns 链 表 ， 但 找 屠 a 
channel 频 道 相 匹配 的 模式 ， 并 将 消息 发 送 给 订阅 了 这 些 模式 的 客户 端 。 


举 个 例子 ， 假 设 pubsub_patterns 链 表 的 当前 状态 如 图 18-17 所 示 。 
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图 18-17 ”pubsub_patterns 链 表 
如 果 这 时 某 个 客户 端 执行 命令 





PUBLISH "news.it" "hello" 





那么 PUBLISH 命 令 会 首先 将 消息 "hello" 发 送 给 "news.it" 频 道 的 所 有 
订阅 者 ， 然 后 开始 在 pubsub_patterns 链 表 中 查找 是 否 有 被 订阅 的 模式 
与 "news.it" 频 道 相 匹配 ， 结 果 发 现 "mews.it" 频 道 和 客户 端 client-9 订 阅 
的 "news.*" 频 道 匹配 ， 于 是 命令 将 消息 "hello" 发 送 给 客户 端 client-9。 


PUBLISH 命 令 将 消息 发 送 给 模式 订阅 者 的 方法 可 以 用 以 下 伪 代 码 来 
苗 述 : 




















def pattern_publish(channel, message): 
# 
遍历 所 有 模式 订阅 消息 
for pubsubPattern in server.pubsub_patterns: 


# 
如 果 频 道 和 模式 相 匹 配 
if match(channel, pubsubPattern.pattern): 
一 
那么 将 消息 发 送 给 订阅 该 模式 的 客户 端 
send_message(pubsubPattern.client，message) 





最 后 ，PUBLISH 命 令 的 实现 可 以 用 以 下 伪 代 码 来 描述 ; 





def publish(channel, message): 

将 消息 发 送 给 channel 

频道 的 所 有 订阅 者 
channel_publish(channel, message) 
# 

将 消息 发 送 给 所 有 和 channel 

频道 相 匹 配 的 模式 的 订阅 者 


pattern_publish(channel, message) 


一 一 | 


18.4 ”查看 订阅 信息 


PUBSUB 命 令 是 Redis 2.8 新 增加 的 命令 之 一 ， 客 户 端 可 以 通过 这 个 
命令 来 查看 频道 或 者 模式 的 相关 信息 ， 比如 某 个 频道 道 目 前 有 多 少 订阅 
者 ， 叉 或 者 某 个 模式 目前 有 和 多少 订阅 者 ， 诸 如 此 类 。 


以 下 三 个 小 节 将 分 别 介 绍 PUBSUB 命 令 的 三 个 子 命令 ， 以 及 这 些 子 
命令 的 实现 原理 。 

















18.4.1 PUBSUB CHANNELS 


PUBSUB CHANNELS[pattern] 子 命令 用 于 返回 服务 器 当前 被 订阅 的 
频道 ， 其 中 pattern 参 数 是 可 选 的 : 


， -如果 不 给 定 pattem 参 数 ， 那 么 命令 返回 服务 器 当前 被 订阅 的 所 有 频 
1 

:如 果 给 定 pattem 参 数 ， 那 么 命令 返回 服务 器 当前 被 订阅 的 频道 中 那 
些 与 pattern 模 式 相 匹配 的 频道 


这 个 子 命令 是 通过 遍历 服务 器 pubsub_channels 字 典 的 所 有 和 键 〈( 每 个 
键 都 是 一 个 被 订阅 的 频道 ) 然后 记录 并 运 回 所 有 符合 条 件 的 频道 来 实 
现 的 ， 这 个 过 程 可 以 用 以 下 伪 代 码 来 描述 





9 pubsub_channels(pattern=None): 


-看 表 ， 用 于 记 录 所 有 符合 条 件 的 频道 
ny ist =. [1] 


沉 廊 服务 器 中 的 所 有 频道 
# 
(也 即 是 pubsub_channels 
字典 的 所 有 键 ) 
for channel in server.pubsub_channels: 


# 
当 以 下 两 个 条 件 的 任意 一 个 满足 时 ， 将 频道 添加 到 链表 里 面 : 
#1 

















) 用 户 没 有 指定 pattern 
参数 


) 用 户 指定 了 atter 
参数 ， 并 且 channel 

和 pattern 

匹配 

if (pattern is None) or match(channel, pattern): 
channel_list.append(channel) 


# 
向 客户 端 返回 频道 列表 
return channel list 





ee | 


举 个 例子 ， 对 于 图 18-18 所 示 的 pubsub_channels 字 典 来 说 ， 执 行 
PUBSUB CHANNELS 命 令 将 返回 服务 器 目前 被 订阅 的 四 个 频道 : 


pubsub channels 


"news.sport" 


"news .business" 





"news .movie" 


图 18-18 ”pubsub_channels 字 — 典 示例 





4) "news.movie" 





男 一 方面 ， 执 行 PUBSUB CHANNELS"news.[is]*" 命 令 将 返 
回 "news.it" 和 "news.sport" 两 个 频道 ， 因 为 只 有 这 两 个 频道 和 "news. 
[is]*" 模 式 相 匹配 : 





redis> PUBSUB CHANNELS "news.[is]*" 
1) "news.it" 


2) "news.sport" 





18.4.2 PUBSUB NUMSUB 


PUBSUB NUMSUB[channel-1 channel-2...channel-n] 子 命令 接受 任意 
多 个 频道 作为 输入 参数 ， 并 返回 这 些 频道 的 订阅 者 数量 。 


这 个 子 命令 是 通过 在 pubsub_channels 字 上 典 中 找到 频道 对 应 的 订阅 者 
链表 ， 然 后 返回 订阅 者 链表 的 长 度 来 实现 的 (订阅 者 链表 的 长 度 就 是 频 
道 订阅 者 的 数量 ) ， 这 个 过 程 可 以 用 以 下 伪 代 码 来 描述 : 





def pubsub_numsub(*all_input_channels): 


# 
遍历 输入 的 所 有 频道 
for channel in all_ input_channels: 
# 
如 果 pubsub_channels 
字典 中 没有 channel 
这 个 键 
# 
那么 说 明 channel 
频道 没有 任何 订阅 者 
if channel not in server.pubsub_channels: 
# 
返回 频道 名 
reply_channel_name(channel) 
# 
订阅 者 数量 为 6 
reply_subscribe_count(0) 





如 果 pubsub_channels 
字典 中 存在 channel 
键 


# 
那么 说 明 channel 
频道 至 少 有 一 个 订阅 者 

BlLSsB: 


# 
返回 频道 名 
reply_channel_name(channel) 
# 
订阅 者 链表 的 长 度 就 是 订阅 者 数量 
reply_subscribe_count(len(server.pubsub_channels[channel])) 








pubsub channels 










"news .1t" client-3 






"news .sport" | client-10086 
"news ,buslneSs" 
"news .movie" 


图 18-19 ”pubsub_channels 字 上 典 


举 个 例子 ， 对 于 图 18-19 所 示 的 pubsub_channels 字 典 来 说 ， 对 字典 
中 的 四 个 频道 执行 PUBSUB NUMSUB 命 令 将 获得 以 下 回复 : 










redis> PUBSUB NUMSUB news.it news.sport news.business news.movie 
"news:it” 
man 


3) "news.sport" 
on 

5) "news.business" 
on 


7) "news .movie" 





18.4.3 PUBSUB NUMPAT 


PUBSUB NUMPAT 子 命令 用 于 返回 服务 器 当前 被 订阅 模式 的 数 


这 个 子 命令 是 通过 返回 pubsub_patterns 链 表 的 长 度 来 实现 的 ， 因 为 
| 阅 模式 的 数量 ， 这 个 过 程 可 以 用 以 下 伪 





def pubsub_numpat( ) : 
# pubsub_patterns 

链表 的 长 度 就 是 被 订阅 模式 的 数量 
reply_pattern_count(len(server.pubsub_patterns)) 


pubsub patterns 


举 个 例子 ， 对 于 图 18-20 所 示 的 pubsub_patterns 链 表 来 说 ， 执 行 
PUBSUB NUMPAT 命 令 将 返回 3: 















图 18-20 ”pubsub_patterns 链 表 





redis> PUBSUB NUMPAT 
(integer) 3 














pubsub patterns 


图 18-21 pubsub_patterns 链 表 


而 对 于 图 18-21 所 示 的 pubsub_patterns 链 表 来 说 ， 执 行 PUBSUB 
NUMPAT 命 令 将 返回 1: 







pubsubPattern 


client 
client-7 










pattern 
TMUSLTOs* 





redis> PUBSUB NUMPAT 
(integer) 1 





18.5 重点 回顾 


.服务 器 状态 在 pubsub_channels 字 典 保存 了 所 有 频道 的 订 阅 关 系 : 
SUBSCRIBE 命 令 负 责 将 客户 端 和 被 订阅 的 频道 关联 到 这 个 字典 里 面 ， 
而 UNSUBSCRIBE 命 令 则 负责 解除 客户 端 和 被 退 订 频道 之 间 的 关联 。 


:服务 器 状态 在 pubsub_patterns 链 表 保 存 了 所 有 模式 的 订阅 关系 : 
PSUBSCRIBE 命 令 负责 将 客户 端 和 被 订阅 的 模式 记录 到 这 个 链表 中 ， 而 
PUNSUBSCRIBE 命 令 则 负责 移 除 客户 端 和 被 退 订 模式 在 链表 中 的 记 
录 。 


.PUBLISH 命 令 通过 访问 pubsub_channels 字 典 来 向 频道 的 所 有 订阅 
者 发 送 消息 ， 通 过 访问 pubsub_patterns 链 表 来 向 所 有 匹配 频道 的 模式 的 
订阅 者 发 送 消 息 。 


.PUBSUB 命 令 的 三 个 子 命 令 都 是 通过 读 取 pubsub_channels 字 典 和 
pubsub_patterns 链 表 中 的 信息 来 实现 的 。 








18.6 ”参考 资料 


:关于 发 布 与 订阅 模式 的 定义 可 以 参考 维基 百科 的 Publish Subscribe 
Pattern 词 条 : http://en.wikipedia.org/wiki/Publish-subscribe_pattern， 以 及 
(Wi = 的 .7 


* 《Pattern-Oriented Software Architecture Volume 4, A Pattern 
Language for Distributed ”Computing》 一 书 第 10 章 《Distribution 
Infrastructure》 关 于 信息 、 信 息 传 递 、 发 布 与 订阅 等 主题 的 讨论 非常 
好 5 值得 一 看 。 


维基 百科 的 Glob 词 条 给 出 了 Glob 风 格 模式 匹配 的 简介 : 
http:/en.wikipedia.org/wikiGlob  〈programming) ， 有 具体 的 匹配 符 语法 
可 以 参考 glob (7) 手册 的 Wildcard Matching 小 市 。 








第 19 章 事务 


Redis 通 过 MULTI、EXEC、WATCH 等 命令 来 实现 事务 
(transaction) 功能 。 事 务 提 供 了 一 种 将 多 个 命令 请 求 打 包 ， 然 后 一 次 
性 、 按 顺序 地 执行 多 个 命令 的 机 制 ， 并 且 在 事务 执行 期 间 ， 服 务 器 不 会 
中 断 事 务 而 改 去 执行 其 他 客户 端的 命令 请 求 ， 它 会 将 事务 中 的 所 有 命令 
都 执行 完毕 ， 然 后 才 去 处 理 其 他 客户 端的 命令 请 求 。 


以 下 是 一 个 事务 执行 的 过 程 ， 该 事务 首先 以 一 个 MULTI 命 令 为 开 
始 ， 接 着 将 多 个 命令 放 入 事务 当中 ， 最 后 由 EXEC 命 令 将 这 个 事务 提交 
Ccommit) 给 服务 器 执行 : 








redis> EXEC 








在 本 章 接 下 来 的 内 容 中 ， 我 们 首先 会 介绍 Redis 如 何 使 用 MULTI 和 
EXEC 命 令 来 实现 事务 功能 ， 说 明 事务 中 的 多 个 命令 是 如 何 被 保存 到 事 
务 里 面 的 ， 而 这 上 坚 命令 又 是 如 何 被 执行 的 。 


在 介绍 了 事务 的 实现 原理 之 后 ， 我 们 将 对 WATCH 命 令 的 作用 进行 
介绍 ， 并 说 明 WATCH 命 令 的 实现 原理 。 


因为 事务 的 安全 性 和 可 靠 性 也 是 大 家 关注 的 焦点 ， 所 以 本 章 最 后 将 
以 常见 的 ACID 性 质 对 Redis 事 务 的 原子 性 、 一 致 性 、 隔 离 性 和 耐久 性 进 
行 说 明 。 


19.1 事务 的 实现 
一 个 事务 从 开始 到 结束 通常 会 经 历 以 下 三 个 阶段 : 
1) 事务 开始 。 
2) 命令 入 队 。 
3) 事务 执行 。 


本 节 接 下 来 的 内 容 将 对 这 三 个 阶段 进行 介绍 ， 说 明 一 个 事务 从 开始 
到 结束 的 整个 过 程 。 


19.1.1 事务 开始 


MULTI 命 令 的 执行 标志 着 事务 的 开始 : 





redis> MULTI 
OK 





MULTI 命 令 可 以 将 执行 该 命令 的 客户 端 从 非 事务 状态 切换 至 事务 状 
态 ， 这 一 切换 是 通过 在 客户 端 状 态 的 flags 属 性 中 打开 REDIS_MULTI 标 
识 来 完成 的 ，MULTI 命 令 的 实现 可 以 用 以 下 伪 代 码 来 表示 : 





def MULTI(): 





打开 事务 标识 
client .flags |= REDIS_MULTI 
# 


返回 OK 


replyoK() 





19.1.2 命令 入 队 


当 一 个 客户 端 处 于 非 事 务 状态 时 ， 这 个 客户 端 发 送 的 命令 会 立即 被 
服务 器 执行 : 








与 此 不 同 的 是 ， 当 一 个 客户 端 切换 到 事务 状态 之 后 ， 服 务 器 会 根据 
这 个 客户 问 发 来 的 不 同 命令 执行 不 同 的 操作 : 


.如 果 客 户 端 发 送 的 命令 为 EXEC、DISCARD、WATCH、MULTI 四 
个 命令 的 其 中 一 个 ， 那 么 服务 器 立即 执行 这 个 命令 。 


.与 此 相反 ， 如 果 客 户 端 发 送 的 命令 是 EXEC、DISCARD、 
WATCH、MULTI 四 个 命令 以 外 的 其 他 命令 ， 那 么 服务 器 并 不 立即 执行 
这 个 命令 ， 而 是 将 这 个 命令 放 入 一 个 事务 队列 里 面 ， 然 后 向 客户 端 返回 
QUEUED 回 复 。 


服务 器 判断 命令 是 该 入 队 还 是 该 立即 执行 的 过 程 可 以 用 流程 图 19-1 
来 描述 。 


服务 顺 接 到 来 目 客 尸 端 的 命令 


这 个 客 尸 端正 处 于 事务 状态 ? 


这 个 命令 是 否 
EXEC、 DISCARD、WATCH 
或 MULTI ? 








个 
将 命令 放 人 事务 队列 执行 这 个 命令 
癌 客 户 端 返回 QUEUED | | 向 客户 端 返回 命令 的 执行 结果 


图 19-1 服务 器 判断 命令 是 该 入 队 还 是 该 执行 的 过 程 
19.1.3 事务 队列 


每 个 Redis 客 户 端 都 有 上 自己 的 事务 状态 ， 这 个 事务 状态 保存 在 客户 
端 状态 的 mstate 属 性 里 面 : 














typedef struct redisClient { 
2 


// 

事务 状态 
multistate mstate; /* MULTI/EXEC state */ 
HR eh 

} redisclient; 





事务 状态 包含 一 个 事务 队列 ， 以 及 一 个 已 入 队 命 令 的 计数 器 (也 可 


以 说 是 事务 队列 的 长 度 ) : 





typedef struct multiState { 


事务 队列 ，FIFO 
顺序 
multiCmd *commands 





A 
已 入 队 命 令 计数 
int count; 
} multiState; 





事务 队列 是 一 个 multiCcmd 类 型 的 数组 ， 数 组 中 的 每 个 multiCmd 结 构 
都 保存 了 一 个 已 入 队 命 令 的 相关 信息 ， 包 括 指 癌 命令 实现 函数 的 指针 、 
命令 的 参数 ， 以 及 参数 的 数量 : 





typedef struct multiCmd { 
// 


参数 
robj **argv; 


7 
参数 数量 
int argc; 





事务 队列 以 先进 先 出 《FIFO) 的 方式 保存 入 队 的 命令 ， 较 先入 队 的 
命令 会 被 放 到 数组 的 前 面 ， 而 较 后 入 队 的 命令 则 会 被 放 到 数组 的 后 面 。 


举 个 例子 ， 如 果 客 户 端 执行 以 下 命令 : 





QUEUED 





那么 服务 器 将 为 客户 端 创建 图 19-2 所 示 的 事务 状态 : 

最 先入 队 的 SET 命令 被 放 在 了 事务 队列 的 索引 0 位 置 上 。 

第 二 入 队 的 GET 命 令 被 放 在 了 事务 队列 的 索引 1 位 置 上 。 

第 三 入 队 的 另 一 个 SET 命令 被 放 在 了 事务 队列 的 索引 2 位 置 上 。 


.最 后 入 队 的 另 一 个 GET 命 令 被 放 在 了 事务 队列 的 索引 3 位 置 上 。 


Stringobject |Stringobject| Stringobject 
"opT" "name" | "Practical Comon Lisp" 


setCommand 













| commands anulticnd[4) mltiCn robj*[2] 


re 


2 
getCommand 
multiCm robj*[3] 


Stringobject| Stringobject| Stringobject 
"SET" "author" | "Peter Seibel" 


setCommand 


mT 
StringObject | Stringobject 
"GET" "author" 


cmd getCommand 


图 19-2 事务 状态 
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19.1.4 ”执行 事务 
当 一 个 处 于 事务 状态 的 客户 端 同 服务 器 发 送 EXEC 命 令 时 ， 这 个 





EXEC 命 令 将 立即 被 服务 器 执行 。 服 务 器 会 表 历 这 个 客户 0 
A i 吉 果 全 部 返 
给 客户 端 。 


举 个 例子 ， 对 于 图 19-2 所 示 的 事务 队列 来 说 ， 服 务 器 首先 会 执行 命 





作 





SET "name" "Practical Common Lisp" 





接着 执行 命令 





GET "name" 





之 后 执行 命令 : 





SET author "Peter Seibel” 





再 之 后 执行 命令 





GET "author" 








最 后 ， 服 务 器 会 将 执行 这 四 个 命令 所 得 的 回复 返回 给 客 己 疹 ; 





redis> EXEC 

1) OK 

2) "Practical Common Lisp" 
3 


4) "Peter Seibel" 





EXEC 命 令 的 实现 原理 可 以 用 以 下 伪 代 码 来 描述 





def EXEC(): 


创建 空白 的 回复 队列 
reply_queue = [] 





# 
遍历 事务 队列 中 的 每 个 项 
# 


读 取 命 令 的 参数 ， 参 数 的 个 数 ， 以 及 要 执行 的 命令 
for argv, argc, cmd in client.mstate.commands: 
# 





执行 命令 ， 并 取得 命令 的 返回 值 





reply = execute_command(cmd，argv，argc) 


# 
将 返回 值 追加 到 回复 队列 末尾 


reply_queue.append(reply) 


回 





# 

移 除 REDIS_MULTI 

标识 ， 让 客户 端 回 到 非 事务 状态 
client.flags & = ~REDIS MULTI 

















# 
清空 客户 端的 事务 状态 ， 包 括 : 


#1 
) 清 零 入 队 命令 计数 器 

#2 
) 释放 事务 队列 

client.mstate.count = 0 
release_transaction_queue(client.mstate.commands) 
一 
务 的 执行 结果 返回 给 客户 端 
send_reply_to_client(client, reply_queue) 











ee | 


19.2 WATCH 命令 的 实现 


WATCH 命 令 是 一 个 乐观 锁 (optimistic locking) ， 它 可 以 在 EXEC 
命令 执行 之 前 ， 监 视 任 意 数 量 的 数据 库 键 ， 并 在 EXEC 命 令 执 行 时 ， 检 
但 被 监视 的 键 是 否 人 至 少 有 一 个 已 经 被 修 改过 了 ， 如 果 是 的 话 ， 服 务 器 将 
拒绝 执行 事务 ， 并 同 客 户 端 返回 代表 事务 执行 失败 的 空 回 复 。 


以 下 是 一 个 事务 执行 失败 的 例子 : 








表 19-1 展 示 了 上 面 的 例子 是 如 何 失败 的 。 
表 19-1 两 个 客户 端 执行 命令 的 过 程 


时 间 客站 端 和 客 端 B 
TI WATCH "name" 

B SET "name" "peter" 

14 | ”| SET "name" "john" 


在 时 间 T4， 客 户 端 B 修 改 了 "name" 键 的 值 ， 当 客户 端 A 在 T5 执 行 
EXEC 命 令 时 ， 服 务 器 会 发 现 WATCH 监 视 的 键 "'name" 已 经 被 修改 ， 因 
此 服务 器 拒绝 执行 客户 端 A 的 事务 ， 并 同 客 户 问 A 返回 空间 复 。 


本 节 接 下 来 的 内 容 将 介绍 WATCH 命 令 的 实现 原理 ， 说 明 事 务 系统 
征 如 何 监视 茶 个 键 ， 并 在 键 被 修改 的 情况 下 ， 确 保 事 务 的 安全 性 的 。 


19.2.1 使 用 WATCH 命 令 监视 数据 库 键 
每 个 Redis 数 据 库 都 保存 着 一 个 watched_keys 字 典 ， 这 个 字典 的 键 是 


某 个 被 WATCH 命 令 监 视 的 数据 库 键 ， 而 字典 的 值 则 是 一 个 链表 ， 链 表 
中 记录 了 所 有 监视 相应 数据 库 键 的 客 己 器 : 








typedef struct redisDb { 
ii 


// 
正在 被 WATCH 
命令 监视 的 键 


dict *watched_keys; 





通过 watched_keys 字 典 ， 服 务 器 可 以 清楚 地 知道 哪些 数据 库 键 正在 
被 监视 ， 以 及 哪些 客户 端正 在 监视 这 些 数据 库 键 。 


图 19-3 是 一 个 watched_keys 字 典 的 示例 ， 从 这 个 watched_keys 字 典 中 
可 以 看 出 : 


:客户 端 c1 和 c2 正 在 监视 键 "name"。 

客户 端 c3 正 在 监视 键 "age"。 

客户 端 c2 和 c4 正 在 监视 键 "address'"。 

通过 执行 WATCH 命 令 ， 客 户 端 可 以 在 watched_keys 字 典 中 与 被 监 


视 的 键 进行 关联 。 举 个 例子 ， 如 果 当 前 客户 端 为 c10086， 那 么 客户 端 执 
行 以 下 WATCH 命 令 之 后 : 





redis> WATCH "name" "age" 
OK 





图 19-3 展 示 的 watched_keys 字 典 将 被 更 新 至 图 19-4 所 示 的 状态 ， 其 
中 用 虚线 包围 的 两 个 c10086 节 点 就 是 由 刚刚 执行 的 WATCH 命 令 添加 到 
字典 中 的 。 









watched keys 







"address" 


图 19-3 一 个 watched_keys 字 上 典 






watched keys 





"name" 


| agen 一 一 一 一 一 


"address" 






图 19-4 执行 WATCH 命 令 之 后 的 watched_keys 字 典 


19.2.2 ”监视 机 制 的 触发 


所 有 对 数据 库 进 行 修改 的 命令 ， 比 如 SET、LPUSH、SADD、 
ZREM、DEL、FLUSHDB 等 等 ， 在 执行 之 后 都 会 调用 
multi.c/touchWatchKey 函 数 对 watched_keys 字 — 典 进行 检查 ， 查 看 是 否 
客户 端正 在 监视 刚刚 被 命令 修改 过 的 数据 库 键 ， 如 果 有 的 话 ， 那 么 
touchWatchKey 函 数 会 将 监视 被 修改 键 的 客户 端的 REDIS_DIRTY_CAS 
标识 打开 ， 表 示 该 客户 端的 事务 安全 性 已 经 被 破坏 。 


touchWatchKey 函 数 的 定义 可 以 用 以 下 伪 代 码 来 描述 ; 














def touchwatchKey(db, key): 
# 

如 果 刍 key 

存在 于 数据 库 的 watched_keys 

字典 中 





# 
那么 说 明 至 少 有 一 个 客户 端 在 监视 这 个 key 
if key in db.watched_ keys: 


遍历 所 有 监视 键 key 
的 客户 端 
for client in db.watched_ keys[key]: 


# 
打开 标识 
client.flags |= REDIS_DIRTY_CAS 





举 个 例子 ， 对 于 图 19-5 所 示 的 watched_keys 字 典 来 说 : 


:如 果 键 "name" 被 修改 ， 那 么 c1、c2、c10086 三 个 客户 端的 
REDIS_DIRTY_CAS 标 识 将 被 打开 。 


-如果 键 "age" 被 修改 ， 那 么 c3 和 c10086 两 个 客户 端的 
REDIS_DIRTY_CAS 标 识 将 被 打开 。 


.如 果 键 "address" 被 修改 ， 那 么 c2 和 c4 两 个 客户 端的 
REDIS_DIRTY_CAS 标 识 将 被 打开 。 


watched keys 














"name" cl10086 
"address" 


图 19-5 “watched_keys 字 典 


19.2.3 ”判断 事务 是 否 安全 


当 服 务 器 接收 到 一 个 客户 端 发 来 的 EXEC 命 令 时 ， 服 务 器 会 根据 这 
个 客户 端 是 否 打 开 了 REDIS_DIRTY _CAS 标 识 来 决定 是 否 执 行事 务 : 


:如 果 客 户 端的 REDIS_DIRTY_CAS 标 识 已 经 被 打开 ， 那 么 说 明 客 
户 端 所 监视 的 键 当 中 ， 至 少 有 一 个 键 已 经 被 修改 过 了 ， 在 这 种 情况 下 ， 
全 人 端 提交 的 事务 已 经 不 再 安全 ， 所 以 服务 器 会 拒绝 执行 客户 端 提交 的 





.如 果 客 户 端的 REDIS_DIRTY_CAS 标 识 没 有 被 打开 ， 那 么 说 明 客 
户 端 监 视 的 所 有 键 都 没有 被 修改 过 【或 者 客户 端 没 有 监视 任何 键 》， 事 
务 仍然 是 安全 的 ， 服 务 器 将 执行 客户 端 提交 的 这 个 事务 。 


这 个 判断 是 否 执行 事务 的 过 程 可 以 用 流程 图 19-6 来 描述 。 


客户 端 向 服务 器 发 送 EXEC 命 令 










客户 端的 
REDIS DIRTY CAS 
标识 是 否 已 经 打开 ? 


拒绝 执行 客户 端 提交 的 事务 执行 客户 端 提 交 的 事务 








图 19-6 服务 器 判断 是 否 执 行事 务 的 过 程 


举 个 例子 ， 对 于 图 19-5 所 示 的 watched_keys 字 典 来 说 ， 如 果 某 个 客 
户 端 对 "ame" 键 进行 了 修改 〈 比 如 执行 SET'"name""john") ， 那 么 cl1、 
c2、c10086 三 个 客户 端的 REDIS_DIRTY_CAS 标 识 将 被 打开 。 当 这 三 个 
客户 端 向 服务 器 发 送 EXEC 命 令 的 时 候 ， 服 务 器 会 拒绝 执行 它们 提交 的 
事务 ， 以 此 来 保证 事务 的 安全 性 。 


19.2.4 一 个 完整 的 WATCH 事 务 执行 过 程 


为 了 进一步 熟悉 WATCH 命 令 的 运作 方式 ， 让 我 们 来 看 一 个 带 有 
WATCH 的 事务 从 开始 到 失败 的 整个 过 程 。 


假设 当前 客户 端 为 c10086， 而 数据 库 watched_keys 字 典 的 当前 状态 
如 图 19-7 所 示 ， 那 么 当 c10086 执 行 以 下 WATCH 命 令 之 后 : 








c10086> WATCH "name" 
OK 


watched_keys 字 典 将 更 新 至 图 19-8 所 示 的 状态 。 


watched keys 


"name" 





图 19-7 执行 WATCH 命 令 之 前 的 watched_keys 字 上 典 


watched keys 


"name" 


"address" 





图 19-8 ”执行 WATCH 命 令 之 后 的 watched_keys 字 典 


接 下 来 ， 客 户 端 c10086 继 续 癌 服务 器 发 送 MULTI 命 令 ， 并 将 一 个 
SET 命令 放 入 事务 队列 : 





c10086> MULTI 
OK 


c10086> SET "name" "peter" 
QUEUED 








就 在 这 时 ， 男 一 个 客户 端 c999 疝 服务 器 发 送 了 一 条 SET 命 令 ， 
将 "name" 键 的 值 设 置 成 了 "john": 





c999> SET "name" "john" 


OK 





c999 执 行 的 这 个 SET 命令 会 导致 正在 监视 "name" 的 所 有 客户 端的 
REDIS_DIRTY_CAS 标 识 被 打开 ， 其 中 包括 客户 端 c10086。 


之 后 ， 当 c10086 向 服务 器 发 送 EXEC 命 令 时 候 ， 因 为 c10086 的 
REDIS_DIRTY_CAS 标 志 已 经 被 打开 ， 所 以 服务 器 将 拒绝 执行 它 提交 的 





c10086> EXEC 
(nil) 





19.3 ”事务 的 ACID 性 质 


在 传统 的 关系 式 数 据 库 中 ， 常 常用 ACID 性 质 来 检验 事务 功能 的 可 
靠 性 和 安全 性 。 


在 Redis 中 ， 事 务 总 是 具有 原子 性 〈Atomicity) 、 一 致 性 
CConsistency) 和 隔离 性 〈Isolation) ， 并 且 当 Redis 运 行 在 某 种 特定 的 
持久 化 模式 下 时 ， 事 务 也 具有 了 耐久 性 (Durability〉。 


以 下 四 个 小 节 将 分 别 对 这 四 个 性 质 进 行 讨论 。 
19.3.1 原子 性 
事务 具有 原子 性 指 的 是 ， 数 据 库 将 事务 中 的 多 个 操作 当 作 一 个 整体 


来 执行 ， 服 务 器 要 么 就 执行 事务 中 的 所 有 操作 ， 要 么 就 一 个 操作 也 不 执 
和 








对 于 Redis 的 事务 功能 来 说 ， 事 务 队列 中 的 命令 要 么 就 全 部 都 执 
行 ， 要 么 就 一 个 都 不 执行 ， 因 此 ，Redis 的 事务 是 具有 原子 性 的 。 


举 个 例子 ， 以 下 展示 的 是 一 个 成 功 执行 的 事务 ， 事 务 中 的 所 有 命令 
都 会 被 执行 : 





redis> MULTI 


与 此 相反 ， 以 下 展示 了 一 个 执行 失败 的 事务 ， 这 个 事务 因为 命令 入 
队 出 错 而 被 服务 器 拒绝 执行 ， 事 务 中 的 所 有 命令 都 不 会 被 执行 : 


redis> MULTI 


Redis 的 事务 和 传统 的 关系 型 数据 库 事务 的 最 大 区 别 在 于 ，Redis 不 
支持 事务 回 深 机 制 (rollback〉， 即 使 事务 队列 中 的 某 个 命令 在 执行 期 
间 出 现 了 错误 ， 整 个 事务 也 会 继续 执行 下 去 ， 直 到 将 事务 队列 中 的 所 有 
命令 都 执行 完毕 为 止 。 


在 下 面 的 这 个 例子 中 ， 即 使 RPUSH 命 令 在 执行 期 间 出 现 了 错误 ， 
事务 的 后 续 命 令 也 会 继续 执行 下 去 ， 并 且 之 前 执行 的 命令 也 不 会 有 任何 


影 啊 : 











redis> SET msg "hello" # msg 
键 是 一 个 字符 串 


redis> MULTI 
OK 
redis> SADD fruit "apple" "banana" "cherry" 


redis> RPUSH msg "good bye" "bye bye" # 
错误 地 对 字符 串 键 msg 
了 列表 键 的 命令 











Redis 的 作者 在 事务 功能 的 文档 中 解释 说 ， 不 支持 事务 回 深 是 因为 
这 种 复杂 的 功能 和 Redis 妃 求 简单 高 效 的 设计 主旨 不 相符 ， 并 且 他 认 
为 ，Redis 事 务 的 执行 时 错误 通常 都 是 编程 错误 产生 的 ， 这 种 错误 通 向 
只 会 出 现在 开发 环境 中 ， 而 很 少 会 在 实际 的 生产 环境 中 出 现 ， 所 以 他 认 
为 没有 必要 为 Redis 开 发 事务 回 深 功 能 。 


gs 


事务 具有 一 致 性 指 的 是 ， 如 果 数 据 库 在 执行 事务 之 前 是 一 致 的 ， 那 
ee 








“一 致 ” 指 的 是 数据 符合 数据 库 本 里 的 定义 和 要 求 ， 没 有 包含 非法 或 
者 无 效 的 错误 数据 。 
Redis 通 过 诬 惯 的 错误 检测 和 简单 的 设计 来 保证 事务 的 一 臻 性， 以 


下 三 个 小 布 将 分 别 介绍 三 个 Redis 事 务 可 能 出 错 的 地 方 ， 并 说 明 Redis 是 
如 何 受 善 地 处 理 这 些 错 误 ， 从 而 确保 事务 的 一 致 性 的 。 


1. 入 队 错误 
如 果 一 个 事务 在 入 队 命令 的 过 程 中 ， 出 现 了 命令 不 存在 ， 或 者 命令 
的 格式 不 正确 等 情况 ， 那 么 Redis 将 拒绝 执行 这 个 事务 。 


在 以 下 展示 的 示例 中 ， 因 为 客户 端 尝试 向 事务 入 队 一 个 不 存在 的 命 
令 YAHOOOO， 所 以 客户 端 提交 的 事务 会 被 服务 占 拒 绝 执 行 : 





(error ERR unknown command 'YAHOOOO' 


EXEC 
(error ) EXECABORT Transac tion discarded because 0 f previous errors. 





因为 服务 器 会 拒绝 执行 入 队 过 程 中 出 现 错误 的 事务 ， 所 以 Redis 事 
务 的 一 致 性 不 会 被 带 有 入 队 错 误 的 事务 影响 。 





Redis 2.6.5 以 前 的 入 队 错 误 处 理 


根据 文档 记录 ， 在 Redis 2.6.5 以 前 的 版 本 ， 即 使 有 命令 在 入 队 
过 程 中 发 生 了 错误 ， 事 务 一 样 可 以 执行 ， 不 过 被 执行 的 命令 只 包括 
那些 正确 入 队 的 命令 。 以 下 这 段 代 人 码 是 在 Redis ”2.6.4 版 本 上 测试 
的 ， 可 以 看 到 ， 事 务 可 以 正常 执行 ， 但 只 有 成 功 入 队 的 SET 命 令 和 
GET 命 令 被 执行 了 ， 而 错误 的 YAHOOOO 则 被 忽略 了 : 








redis> MULTI 





因为 错误 的 命令 不 会 锐 入 队 ， 所 以 Redis 不 会 尝试 去 执行 错误 
的 命令 ， 因 此 ， 即 使 在 2.6.5 以 前 的 版 本 中 ，Redis 事 务 的 一 致 性 也 
不 会 伞 入 队 错误 影响 。 


2. 执 行 错误 


除了 入 队 时 可 能 发 生 错误 以 外 ， 事 务 还 可 能 在 执行 的 过 程 中 发 生 错 





关于 这 种 错误 有 两 个 需要 说 明 的 地 方 : 


执行 过 程 中 发 生 的 错误 都 是 一 些 不 能 在 入 队 时 被 服务 右 发 现 的 错 
误 ， 这 些 错误 只 会 在 命令 实际 执行 时 被 触发 。 


即使 在 事务 的 执行 过 程 中 发 生 了 错误 ， 服 务 器 也 不 会 中 断 事务 的 
执行 ， 它 会 继续 执行 事务 中 余下 的 其 他 命令 ， 并 且 已 执行 的 命令 (包括 
执行 命令 所 产生 的 结果 ) 不 会 被 出 错 的 命令 影响 。 


对 数据 库 键 执行 了 错误 类 型 的 操作 是 事务 执行 期 间 最 常见 的 错误 之 


在 下 面 展 示 的 这 个 例子 中 ， 我 们 首先 用 SET 命 令 将 键 "msg" 设 置 成 
了 一 个 字符 串 键 ， 然 后 在 事务 里 面 尝试 对 "msg" 键 执行 只 能 用 于 列表 键 
的 RPUSH 命 令 ， 这 将 引发 一 个 错误 ， 并 且 这 种 错误 只 能 在 事务 执行 
《也 即 是 命令 执行 ) 期 间 补 发 现 : 





redis> SET msg "hello" 

OK 

redis> MULTI 

OK 

redis> SADD fruit "apple" "banana" "cherry" 
QUEUED 

redis> RPUSH msg "good bye" "bye bye" 


1) (integer) 3 
2) (error ) WRONGTYPE Operation against a key holding the wrong kind of value 
3) (integer) 3 


因为 在 事务 执行 的 过 程 中 ， 出 错 的 命令 会 被 服务 器 识别 出 来 ， 并 进 
行 相应 的 错误 处 理 ， 所 以 这 些 出 错 命令 不 会 对 数据 库 做 任何 修改 ， 也 不 
会 对 事务 的 一 致 性 产生 任何 影响 。 


3. 服 务 句 停机 


如 果 Redis 服 务 器 在 执行 事务 的 过 程 中 停机 ， 那 么 根据 服务 器 所 使 
用 的 持久 化 模式 ， 可 能 有 以 下 情况 出 现 : 





:如果 服 务 器 运行 在 无 持久 化 的 内 存 模式 下 ， 那 么 重启 之 后 的 数据 
库 将 是 空白 的 ， 因 此 数据 总 是 一 致 的 。 


如果 服 务 器 运行 在 RDB 模 式 下 ， 那 么 在 事务 中 途 俘 机 不 会 导致 不 
一 致 性 ， 因 为 服务 器 可 以 根据 现 有 的 RDB 文 件 来 恢复 数据 ， 从 而 将 数据 
库 还 原 到 一 个 一 致 的 状态 。 如 果 找 不 到 可 供 使 用 的 RDB 文 件 ， 那 么 重 局 
之 后 的 数据 库 将 是 空白 的 ， 而 空白 数据 库 总 是 一 致 的 。 


-如果 服 务 器 运行 在 AOF 模 式 下 ， 那 么 在 事务 中 途 停机 不 会 导致 不 
一 致 性 ， 因 为 服务 器 可 以 根据 现 有 的 AOF 文 件 来 恢复 数据 ， 从 而 将 数据 
库 还 原 到 一 个 一 致 的 状态 。 如 宁 找 不 到 可 供 使 用 的 AOF 文 件 ， 那 么 重 局 
之 后 的 数据 库 将 是 空白 的 ， 而 空白 数据 库 总 是 一 致 的 。 


综 上 所 述 ， 无 论 Redis 服 务 器 运行 在 哪 种 持久 化 模式 下 ， 事 务 执行 
中 途 发 生 的 停机 都 不 会 影 啊 数据 库 的 一 致 性 。 


19.3.3 ”隔离 性 


事务 的 隔离 性 指 的 是 ， 即 使 数据 库 中 有 多 个 事务 并 发 地 执行 ， 各 个 
事务 之 间 也 不 会 互相 影响 ， 并 且 在 并 发 状态 下 执行 的 事务 和 串 行 执行 的 
事务 产生 的 结果 完全 相同 。 


因为 Redis 使 用 单线 程 的 方式 来 执行 事务 (以 及 事务 队列 中 的 命 
令 ) ， 并 且 服 务 嚣 保证， 在 执行 事务 期 间 不 会 对 事务 进行 中 断 ， 因 此 ， 
0 
19.3.4 ”耐久 性 

事务 的 耐久 性 指 的 是 ， 当 一 个 事务 执行 完毕 时 ， 执 行 这 个 事务 所 得 
的 结果 已 经 被 保存 到 永久 性 存储 介质 (比如 硬盘 〉 里 面 了 ， 即 使 服务 器 
在 事务 执行 完毕 之 后 停机 ， 执 行事 务 所 得 的 结果 也 不 会 丢失 。 

因为 Redis 的 事务 不 过 是 简单 地 用 队列 包 里 起 了 一 组 Redis 命 令 ， 
Redis 并 没有 为 事务 提供 任何 额外 的 持久 化 功能 ， 所 以 Redis 事 务 的 耐久 
性 由 Redis 所 使 用 的 持久 化 模式 决定 : 


` 当 服务 器 在 无 持久 化 的 内 存 模式 下 运作 时 ， 事 务 不 具有 了 耐久 性 : 















































一 旦 服务 器 停机 ， 包 括 事 务 数据 在 内 的 所 有 服务 器 数据 部 将 丢失 。 


` 当 服务 器 在 RDB 持 久 化 模式 下 运作 时 ， 服 务 器 只 会 在 特定 的 保存 
条 件 被 满足 时 ， 才 会 执行 BGSAVE 命 令 ， 对 数据 库 进 行 保存 操作 ， 并 且 
异步 执行 的 BGSAVE 不 能 保证 事务 数据 被 第 一 时 间 保 存 到 硬盘 里 面 ， 
此 RDB 持 和 久 化 模式 下 的 事务 也 不 具有 耐久 性 。 


: 当 服 务 器 运行 在 AOF 持 久 化 模式 下 ， 并 有 日 appendfsync 选 项 的 值 为 
always 时 ， 程 序 总 会 在 执行 命令 之 后 调用 同步 (sync) 函数 ， 将 命令 数 
据 真正 地 保存 到 硬盘 里 面 ， 因 此 这 种 配置 下 的 事务 是 具有 了 耐久 性 的 。 


: 当 服 务 嚣 运行 在 AOF 持 久 化 模式 下 ， 并 有 旦 appendfsync 选 项 的 值 为 
everysec 时 ， 程 序 会 每 秒 同 步 一 次 命令 数据 到 人 硬盘。 因为 停机 可 能 会 恰 
好 发 生 在 等 竺 同步 的 那 一 秒 钟 之 内 ， 这 可 能 会 造成 事务 数据 丢失 ， 上 所 以 
这 种 配置 下 的 事务 不 具有 耐久 性 。 


: 当 服 务 器 运行 在 AOF 持 久 化 模式 下 ， 并 有 日 appendfsync 选 项 的 值 为 
no 时 ， 程 序 会 交 由 操作 系统 来 决定 何 时 将 命令 数据 同步 到 硬盘 。 因 为 事 
Se 同步 的 过 程 中 丢失 ， 所 以 这 种 配置 下 的 事务 不 具有 而 








no-appendfsync-on-rewrite 配 置 选 项 对 耐久 性 的 影响 


配置 选项 no-appendfsync-on-rewrite 可 以 配合 appendfsync 选 项 为 
always 或 者 everysec 的 AOF 持 久 化 模式 使 用 。 当 no-appendfsync-on- 
rewrite 选 项 处 于 打开 状态 时 ， 在 执行 BGSAVE 命 令 或 者 
BGREWRITEAOF 命 令 期 间 ， 服 务 器 会 暂时 集 止 对 AOF 文 件 进行 同 
步 》 从 而 尽 可 能 地 减少 IO 阻塞 o 但 是 这 样 一 来 ， 关于 “always 模 式 
的 AOF 持 久 化 可 以 保证 事务 的 耐久 性 ”这 一 结论 将 不 再 成 立 ， 因 为 
在 服务 器 停止 对 AOF 文 件 进行 同步 期 间 ， 事 务 结果 可 能 会 因为 停机 
而 丢失 。 因 此 ， 如 果 服 务 器 打开 了 no-appendfsync-on-rewrite 选 项 ， 
那么 即使 服务 器 运行 在 always 模 式 的 AOF 持 久 化 之 下 ， 事 务 也 不 具 
有 了 耐久 性 。 在 默认 配置 下 ，no-appendfsync-on-rewrite 处 于 关闭 状 


不 论 Redis 在 什么 模式 下 运作 ， 在 一 个 事务 的 最 后 加 上 SAVE 命 令 总 
可 以 保证 事务 的 耐久 性 : 





redis> MULTI 
OK 


redis> SET msg "hello" 





不 过 因为 这 种 做 法 的 效率 太 低 ， 所 以 并 不 具有 实用 性 。 


19.4 重点 回顾 
， 事务 提供 了 一 种 将 多 个 命令 打包 ， 然 后 “次 性 、 有 序 地 执行 的 机 
| 。 


多 个 命令 会 被 入 队 到 事务 队列 中 ， 然 后 按 先 进 先 出 〈FIFO) 的 顺 
序 执行 。 


事务 在 执行 过 程 中 不 会 被 中 断 ， 当 事务 队列 中 的 所 有 命令 都 被 扫 
行 完毕 之 后 ， 事 务 才 会 结束 。 


' 带 有 WATCH 命 令 的 事务 会 将 客户 端 和 被 监视 的 键 在 数据 库 的 
watched_keys 字 典 中 进行 关联 ， 当 键 被 修改 时 ， 程 序 会 将 所 有 监视 被 修 
改 键 的 客户 端的 REDIS_DIRTY_CAS 标 志 打 开 。 


:只 有 在 客户 端的 REDIS_DIRTY_CAS 标 志 未 被 打开 时 ， 服 务 器 才 
会 执行 客户 端 提 交 的 事务 ， 否 则 的 话 ， 服 务 器 将 拒绝 执行 客户 端 提 交 的 


事务 。 
Redis 的 事务 总 是 具有 ACID 中 的 原子 性 、 一 致 性 和 隔离 性 ， 当 服务 


运行 在 AOF 持 久 化 模式 下 ， 并 且 appendfsync 选 项 的 值 为 always 时 ， 事 
也 具有 了 耐久 性 。 





器 
务 


19.5 ”参考 资料 


维基 百科 的 ACID 词 条 给 出 了 ACID 性 质 的 定义 : 
http:/en.wikipedia.org/wiki/ACID。 


《数据 库 系 统 实现 》 一 书 的 第 6 音 《 系 统 故障 对 策 》， 对 事务 、 事 
务 错误 、 日 志 等 主题 进行 了 讨论 。 


.Redis 官 方 网 站 上 的 《事务 》 文 档 记 录 了 Redis 处 理事 务 错误 的 方 
式 ， 以 及 Redis 不 支持 事务 回 深 的 原因 : 


http:/redis.io/topics/transactions 。 


第 20 音 ”Lua 脚 本 

Redis 从 2.6 版 本 开始 引入 对 Lua 脚 本 的 文 持 ， 通 过 在 服务 器 中 般 入 
Lua 环 境 ，Redis 客 户 端 可 以 使 用 Lua 脚 本 ， 直 接 在 服务 器 端 原子 地 执行 
多 个 Redis 命 令 。 


其 中 ， 使 用 EVAL 命 令 可 以 直接 对 输入 的 脚本 进行 求 值 : 








而 使 用 EVALSHA 命 令 则 可 以 根据 脚本 的 SHA1 校 验 和 来 对 脚本 进行 
求 值 ， 但 这 个 命令 要 求 校 验 和 对 应 的 脚本 必须 至 少 被 EVAL 命 令 执 行 过 
一 次 : 





a EVAL "return 1+1" 0 


integ SE 

Tedis> SHA "a27e7e8a43702b7046d4f6a7ccf5b60cef6b9bd9"” 9 // 
直下 的 验 和 

In i er) 2 





或 者 这 个 校 验 和 对 应 的 脚本 曾经 被 SCRIPT LOAD 命令 载 入 过 





redis> SCRIPT LOAD "return 2*2" 
2 d16424cb50f74d4724ae833 
redis> SHA "4475bfb5919b5ad16424c DOF 7 e833e72" 0 





本 章 将 对 Redis 服 务 器 中 与 Lua 脚 本 有 关 的 各 个 部 分 进行 介绍 


首先 ， 本 章 将 介绍 Redis 服 务 器 初始 化 Lua 环 境 的 整个 过 程 ， 说 明 
Redis 对 Lua 环 境 进行 了 哪些 修改 ， 而 这 些 修改 又 对 用 户 执行 Lua 脚 本 产 
生 了 什么 影响 和 限制 。 


接着 ， 本 章 将 介绍 与 Lua 环 境 进行 协作 的 两 个 组 件 ， 它 们 分 别 是 负 
责 执行 Lua 脚 本 中 包含 的 Redis 命 令 的 伪 客 户 端 ， 以 及 负责 保存 传 入 服务 
器 的 Lua 脚 本 的 脚本 字典 。 了 解 伪 客户 端 可 以 知道 脚本 中 的 Redis 命 令 在 

执行 时 ， 服 务 器 与 Lua 环 境 的 交互 过 程 ， 而 了 解 脚本 字典 则 有 助 于 理解 
SCRIPT EXISTS 命 令 和 脚本 复制 功能 的 实现 原理 。 





在 这 之 后 ， 本 章 将 介绍 EVAL 命 令 和 EVALSHA 命 令 的 实现 原理 ， 
说 明 Lua 脚 本 在 Redis 服 务 器 中 是 如 何 被 执行 的 ， 并 对 管理 脚本 的 四 个 命 
令 SCRIPT FLUSH 命 令 、SCRIPT EXISTS 人 命令、SCRIPT LOAD 命 
令 、SCRIPT KILEL 命 令 的 实现 原理 进行 介绍 。 


最 后 ， 本 间 将 以 介绍 Redis 在 主 从 服务 器 之 间 复 制 Lua 脚 本 的 方法 作 
为 本 章 的 结束 。 





20.1 创建 并 修改 Lua 环 境 

为 了 在 Redis 服 务 嚣 中 执行 Lua 脚 本 ，Redis 在 服务 器 内 骸 了 一 个 Lua 
环境 (environ-ment) ， 并 对 这 个 Lua 环 境 进 行 了 一 系列 修改 ， 从 而 确保 
这 个 Lua 环 境 可 以 满足 Redis 服 务 器 的 需要 

Redis 服 务 器 创建 并 修改 Lua 环 境 的 整个 过 程 由 以 下 步骤 组 成 : 


1) 创建 一 个 基础 的 Lua 环 境 ， 之 后 的 所 有 修改 都 是 针对 这 个 环境 进 





行 的 


2) 载 入 多 个 函数 库 到 Lua 环 境 里 面 ， 让 Lua 脚 本 可 以 使 用 这 些 函 数 
库 来 进行 数据 操作 。 


3) 创建 全 局 表格 redis， 这 个 表格 包含 了 对 Redis 进 行 操作 的 函数 ， 
比如 用 于 在 Lua 脚 本 中 执行 Redis 命 令 的 redis.call 函 数 。 


4) 使 用 Redis 上 自制 的 随机 函数 来 痊 换 Lua 原 有 的 带 有 副作用 的 随机 
函数 ， 从 而 避免 在 脚本 中 引入 副作用 。 


5) 创建 排序 辅助 函数 ，Lua 环 境 使 用 这 个 辅佐 函数 来 对 一 部 分 
Redis 命 令 的 结果 进行 排序 ， 从 而 消除 这 些 命令 的 不 确定 性 。 


6 ) pcall 函 数 的 错误 报告 辅助 函数 ， 这 个 函数 可 以 提供 更 
详细 的 出 错 信 息 


7) 对 Lua 环 境 中 的 全 局 环境 进行 保护 ， 防 止 用 户 在 执行 Lua 脚 本 的 
过 程 中 ， 将 额外 的 全 局 变量 添加 到 Lua 环 境 中 。 


8) 将 完成 修改 的 Lua 环 境 保 存 到 服务 器 状态 的 Inua 属 性 中 ， 等 符 执 
行 服务 器 传 来 的 Lua 脚 本 。 接 下 来 的 各 个 小 节 将 分 别 介绍 这 些 步骤。 


20.1.1 创建 Lua 环 境 


在 最 开始 的 这 一 步 ， 服 务 器 前 先 调用 Lua 的 C API 函数 lua_open， 创 
4 


因为 lua_open 函 数 创 建 的 只 是 一 个 基本 的 Lua 环 境 ， 为 了 让 这 个 Lua 
ee 接 下 来 服务 器 将 对 这 个 Lua 环 境 进行 一 
系列 修改 。 


20.1.2 载 入 函数 库 
Redis 修 改 Lua 环 境 的 第 一 步 ， 束 是 将 以 下 函数 库 载 入 到 Lua 环 境 里 
面 : 


基础 库 (base ”library〉: 这 个 库 包 含 Lua 的 核心 (core〉 函 数 ， 比 
如 assert、error、pairs、tostring、Ppcall 等 。 另 外 ， 为 了 防止 用 户 从 外 部 文 
件 中 引入 不 安全 的 代码 ， 库 中 的 loadfile 函 数 会 被 删除 。 


.表格 库 (table library) : 这 个 库 包含 用 于 处 理 表 格 的 通用 函数 ， 比 


如 table.concat、table.insert、table.remove、table.sort 等 。 


字符 串 库 〈string jlibrary) : 这 个 库 包含 用 于 处 理 字 符 串 的 通用 函 
数 ， 比 如 用 于 对 字符 串 进行 查找 的 string.find 函 数 ， 对 字符 串 进 行 格式 化 
的 string.format 疯 数 ， 查 看 字符 串 长 度 的 string.len 函 数 ， 对 字符 串 进行 翻 
转 的 string.reverse 函 数 等 。 


.数学 库 (math library) : 这 个 库 是 标准 C 语 言 数学 库 的 接口 ， 它 包 
括 计算 绝对 值 的 math.abs 函 数 ， 返 回 多 个 数 中 的 最 大 值 和 最 小 值 的 
math.max 函 数 和 math.min 函 数 ， 计 算 二 次 方 根 的 math.sqrt 函 数 ， 计 算 对 
数 的 math.log 函 数 等 。 


.调试 库 〈debug library) : 这 个 库 提供 了 对 程序 进行 调试 所 需 的 函 
数 ， 比 如 对 程序 设置 钩 本 取得 钩 子 的 Di sethook 函 数 和 
debug.gethook 函 数 ， 返 回 给 定 函 数 相 关 信 息 的 debug.getinfo 函 数 ， 为 对 
象 设置 元 数据 的 debug. es Ss 获取 对 象 元 数据 的 
debug.getmetatable 函 数 等 。 











:Lua CJSON 库 ( ND ts rn Or en iene 
cjson.php) : 这 个 库 用 于 处 理 UTF-8 编 码 的 JSON 格 式 ， 其 中 cjson.decode 
函数 将 一 个 JSON 格 式 的 字符 串 转换 为 一 个 Lua 值 ， 而 cjson.encode 函 数 将 
一 个 Lua 值 序列 化 为 JSON 格 式 的 字符 串 。 


“Struct 库 (http://www.inf.puc-rio.br/~roberto/struct/〉: 这 个 库 用 于 


在 Lua 值 和 C 结 构 〈struct) 之 间 进 行 转换 ， 函 数 struct.pack 将 多 个 Lua 值 
打包 成 一 个 类 绪 构 〈struct-like) 字符 串 ， 而 函数 struct.unpack 则 从 一 个 
类 结构 字符 串 中 解 包 出 多 个 Lua 值 。 


.Lua cmsgpack 库 〈https:/github.comy/antirez/lua-cmsgpack) : 这 个 
库 用 于 处 理 MessagePack 格 式 的 数据 ， 其 中 cmsgpack.pack 函 数 将 Lua 值 转 
换 为 MessagePack 数 据 ， 而 cmsgpack.unpack 函 数 则 将 MessagePack 数 据 转 
换 为 Lua 值 。 


通过 使 用 这 些 功 能 强大 的 函数 库 ，Lua 脚 本 可 以 直接 对 执行 Redis 命 
令 获 得 的 数据 进行 复杂 的 操作 。 


20.1.3 ”创建 redis 全 局 表格 


在 这 一 步 ， 服 务 器 将 在 Lua 环 境 中 创建 一 个 redis 表 格 〈table) ， 并 
将 它 设 为 全 局 变量 。 这 个 redis 表 格 包 含 以 下 函数 : 


.用 于 执行 Redis 命 令 的 redis.call 和 redis.pcall 函 数 。 





.用 于 记录 Redis 日 志 (log)〉 的 redis.log 孙 数 ， 以 及 相应 的 日 志 级 别 
(level) 和 常量 : redis.LOG_DEBUG, redis.LOG_VERBOSE, 
redis.LOG_ NOTICE, 以 及 redis.LOG WARNING. 
.用 于 计算 SHA1 校 验 和 的 redis.shalhex 函 数 。 
.用 于 返回 错误 信息 的 redis.error_reply 函 数 和 redis.status_reply 函 数 。 


在 这 些 函 数 里 面 ， 最 常用 也 最 重要 的 要 数 redis.call 函数 和 redis.pcall 
函数 ， 通 过 这 两 个 函数 ， 用 户 可 以 直接 在 Lua 脚 本 中 执行 Redis 命 令 : 





redis> EVAL "return redis.call('PING')" 0 





20.1.4 ”使 用 Redis 自 制 的 随机 函数 来 葵 换 Lua 原 有 的 随机 函数 


为 了 保证 相同 的 脚本 可 以 在 不 同 的 机 器 上 产生 相同 的 结果 ，Redis 
要 求 所 有 传 入 服务 器 的 Lua 脚 本 ， 以 及 Lua 环 境 中 的 所 有 函数 ， 都 必须 是 
副作用 (side effect) 的 纯 函 数 (pure function)。 


但 是 ， 在 之 前 载 入 Lua 环 境 的 math 函 数 库 中 ， 用 于 生成 随机 数 的 
math.random 函 数 和 math.randomseed 函 数 都 是 带 有 副作用 的 ， 它 们 不 符 
合 Redis 对 Lua 环 境 的 无 副作用 要 求 。 

因为 这 个 原因 ，Redis 使 用 上 自制 的 函数 蔡 换 了 math 库 中 原 有 的 
math.random 函 数 和 math.randomseed 函 数 ， 蔡 换 之 后 的 两 个 函数 有 以 下 
特征 : 

:对 于 相同 的 seed 来 说 ，math.random 总 产生 相同 的 随机 数 序列 ， 这 
个 函数 是 一 个 纯 函数 。 

.除非 在 脚本 中 使 用 math.randomseed 显 式 地 修改 seed， 人 否则 每 次 运行 
脚本 时 ，Lua 环 境 都 使 用 固定 的 math.randomseed (0) 语句 来 初始 化 


Seed 。 


例如 ， 使 用 以 下 脚本 ， 我 们 可 以 打印 seed 值 为 0 时 ，math.random 对 
于 输入 10 至 1 所 产生 的 随机 序列 : 








--random-with-default-seed.lua 
local i = 10 
local seq = 
while (i > 0) do 
seq[i] = math.random(i) 
中 二 下- 下 


end 
return seq 





无 论 执行 这 个 脚本 多 少 次 ， 产 生 的 值 都 是 相同 的 : 





i --eval random-with-default-seed.lua 


10) (integer) 2 





但 是 ， 如 果 我 们 在 男 一 个 脚本 里 面 ， 调 用 math.randomseed 将 seed 修 
改 为 10086: 





--random-with-new-seed.1ua 
math.randomseed(10086) --change seed 
i = 10 





那么 这 个 脚本 生成 的 随机 数 序列 将 和 使 用 默认 seed 值 0 时 生成 的 随 
机 序列 不 同 : 





i 


上 
EE 
己 
所 
从 
本 
品 
上 


CD 0 ~ 四 由 上 ON 用 钱 
Ms 
888SSSS8S5 
Re eR Je Ry Re RA 2 
1 
opPhohhnhhu 
< 


nte 
nte 
nte 
nte 
nte 
nte 
nte 
nte 
nte 


10) (1 ntege r)1 





20.1.5 创建 排序 辅助 函数 


上 一 个 小 节 说 到 ， 为 了 防止 带 有 副作用 的 函数 令 脚本 产生 不 一 致 的 
数据 ，Redis 对 math 库 的 math.random 函 数 和 math.randomseed 函 数 进 行 了 
蔡 换 。 


对 于 Lua 脚 本 来 说 ， 另 一 个 可 能 产生 不 一 致 数据 的 地 方 是 那些 带 有 
不 确定 性 质 的 命令 。 比 如 对 于 一 个 集合 键 来 说 ， 因 为 集合 元 系 的 排列 是 
| 所 以 即使 两 个 集合 的 元 系 完 全 相同 ， 它 们 的 输出 结果 也 可 能 3 
` 相 同 。 


考虑 下 面 这 个 集合 例子 : 





redis> SADD fruit apple banana cherry 
(integer) 3 
redis> SMEMBERS fruit 

mcherryn 


， 
redis> SADD another-fruit cherry banana apple 
(integer) 3 
redis> SMEMBERS another-fruit 

' len 





这 个 例子 中 的 fruit 集 合 和 another-fruit 集 合 包含 的 元 素 是 完全 相同 
的 ， 只 是 因为 集合 添加 元 素 的 顺序 不 同 ，SMEMBERS 命 令 的 输出 就 产 
生 了 不 同 的 结果 。 


Redis 将 SMEMBERS 这 种 在 相同 数据 集 上 可 能 会 产生 不 同 输出 的 命 


令 称 为 “ 带 有 不 确定 性 的 命令 ”， 这 些 命令 包括 : 

“SINTER 

:SUNION 

“SDIFF 

‘SMEMBERS 

‘HKEYS 

:HVALS 

‘KEYS 

为 了 消除 这 些 命令 种 来 的 不 确定 性 ， 服 务 器 会 为 Lua 环 境 创 建 一 个 
排序 辅助 函数 _redis” compare_helper， 当 Lua 脚 本 执行 完 一 个 带 有 不 确 
定性 的 命令 之 后 ， 程 序 会 使 用 _redis ”compare_helper 作 为 对 比 函 数 ， 
自动 调用 table.sort 函 数 对 命令 的 返回 值 做 一 次 排序 ， 以 此 来 保证 相同 的 
数据 集 总 是 产生 相同 的 输出 。 

举 个 例子 ， 如 果 我 们 在 Cua 脚本 中 对 fruit 集 合 和 another- fruit 集 合 执 


行 SMEMBERS 命 令 ， 那 么 两 个 脚本 将 得 出 相同 的 结果 ， 因 为 脚本 已 经 
对 SMEMBERS 命 令 的 输出 进行 过 排序 了 : 





redis> EVAL "return redis.call('SMEMBERS', KEYS[1])" 1 fruit 
nr n 
2) "banana" 
1 


1 rrv" 
redis> EVAL "return redis.call('SMEMBERS', KEYS[1])" 1 another-fruit 
1 





20.1.6 ”创建 redis.pcall 函 数 的 错误 报告 辅助 函数 


在 这 一 步 ， 服 务 器 将 为 Lua 环 境 创 建 一 个 名 为 _ redis err handler 
的 错误 处 理 函 数 ， 当 脚本 调用 redis.pcall 函 数 执行 Redis 命 令 ， 并 且 被 执 
行 的 命令 出 现 错误 时 ，_ redis_err handler 就 会 打印 出 错 代 码 的 来 源 和 
发 生 错 误 的 行 数 ， 为 程序 的 调试 提供 方便 。 


举 个 例子 ， 如 果 客 户 端 要 求 服务 器 执行 以 下 Lua 脚 本: 





第 1 
行 


第 2 
行 


行 
return redis.pcall('wrong command') 





么 服务 器 将 同 客 户 端 返回 一 个 错误 : 





$ redis-cli --eval wrong-command.1ua 
(error) @user_script: 4: Unknown Redis command called from Lua Script 





其 中 @user Script 次 明 这 是 一 个 用 户 定 义 的 函 数 ， 而 之 后 的 4 则 说 明 
出 错 的 代码 位 于 Lua 脚 本 的 第 和 四 行 。 


20.1.7 ”保护 Lua 的 全 局 环境 


在 这 一 步 ， 服 务 器 将 对 Lua 环 境 中 的 全 局 环境 进行 保护 ， 确 保 传 入 
We 
Lua 环 境 里 面 。 


因为 全 局 变量 保 扩 的 原因 ， 当 一 个 脚本 试图 创建 一 个 全 局 变量 时 ， 
服务 器 将 报告 一 个 错误 : 











redis> EVAL "x = 10" 0 

(error) ERR Error running Script 

(call to f_df1iad3745c2d2f078f0f41377a92bb6f8ac79af0): 
@enable_strict_lua:7: user_script:1: 

Script attempted to create global variable 'x' 








除 此 之 外 ， 试 图 获取 一 个 不 存在 的 全 局 变量 也 会 引发 一 个 错误 : 





redis> EVAL "return x" 0 

(error) ERR Error running script 

(call to f_03c387736bb5ccO09ff35151572cee04677aa374): 
@enable_strict_lua:14: user_script:1: 

Script attempted to access unexisting global variable 'x' 





不 过 Redis 并 未 茶 止 用 户 修 改 已 存在 的 全 局 变量 ， 所 以 在 执行 Lua 脚 


本 的 时 候 ， 必 须 非 常 小 必 ， 以 免 错 误 地 修改 了 已 存在 的 全 局 变量 : 





EVAL "redis = 10086; return redis" 0 
(integer) 10086 


20.1.8 ”将 Lua 环 境 保存 到 服务 器 状态 的 lua 属 性 里 面 
经 过 以 上 的 一 系列 修改 ，Redis 服 务 器 对 Lua 环 境 的 修改 工作 到 此 惑 


结束 了 ， 在 最 后 的 这 一 步 ， 服 务 器 会 将 Lua 环 境 和 服务 器 状态 的 lua 属 性 
关联 起 来 ， 如 图 20-1 所 示 。 


redisServer 


图 20-1 服务 器 状态 中 的 Lua 环 境 
为 Redis 使 用 串 行 化 的 方式 来 执行 Redis 命 令 ， 所 以 在 任何 特定 时 


间 里 ， 最 多 都 只 会 有 一 个 脚本 能 够 被 放 进 Lua 环 境 里 面 运行 ， 因 此 ， 整 
个 Redis 服 务 器 只 需要 创建 一 个 Lua 环 境 即 可 。 





20.2 ”Lua 环 境 协 作 组 件 

除了 创建 并 修改 Lua 环 境 之 外 ，Redis 服 务 器 还 创建 了 两 个 用 于 与 
Lua 环 境 进 行 协 作 的 组 件 ， 它 们 分 别 是 负 贡 执行 Lua 脚 本 中 的 Redis 命 令 
的 伪 客 户 端 ， 以 及 用 于 保存 Lua 脚 本 的 lua_scripts 字 典 。 

接 下 来 的 两 个 小 节 将 分 别 介 绍 这 两 个 组 件 。 
20.2.1 伪 客 户 端 

因为 执行 Redis 命 令 必须 有 相应 的 客户 端 状态 ， 所 以 为 了 执行 Lua 脚 
本 中 包含 的 Redis 命 令 ，Redis 服 务 器 专门 为 Lua 环 境 创 建 了 一 个 伪 客 户 
端 ， 并 由 这 个 伪 客 户 端 负责 处 理 Lua 脚 本 中 包含 的 所 有 Redis 命 令 。 


Lua 脚 本 使 用 redis.call 函 数 或 者 redis.pcall 函 数 执行 一 个 Redis 命 令 ， 
需要 完成 以 下 步骤 : 


1) Lua 环 境 将 redis.call 函 数 或 者 redis.pcall 函 数 想 要 执行 的 命令 传 给 
伪 客 户 端 。 


2) 伪 客 户 端 将 脚本 想 要 执行 的 命令 传 给 命令 执行 器 。 

3) 命令 执行 器 执行 伪 客 户 端 传 给 它 的 命令 ， 并 将 命令 的 执行 结 
返回 给 伪 客 户 端 。 

4) 伪 客 户 端 接收 命令 执行 器 返回 的 命令 结果 ， 并 将 这 个 命令 结果 
返回 给 Lua 环 境 。 


5) Lua 环 境 在 接收 到 命令 结果 之 后 ， 将 该 结果 返回 给 redis.call 函 数 
或 者 redis.pcall 函 数 。 

















为 函数 返回 值 返回 给 脚本 中 的 调用 者 。 

图 20-2 展 示 了 Lua 脚 本 在 调用 redis.call 函 数 时 ，Lua 环 境 、 伪 客户 
端 、 命 令 执行 器 三 者 之 间 的 通信 过 程 〈 调 用 redis.pcall 函 数 时 产生 的 通信 
过 程 也 是 一 样 的 ) 。 


]) 传送 redis .call 函数 信 
想 要 执行 的 Redi s 命 令 客 2) 将 命令 传 给 执行 器 执行 


4) 将 命令 结果 传 回 给 Lua 环 境 3) 返回 命令 的 执行 结果 





图 20-2” ”Lua 脚本 执行 Redis 命 令 时 的 通信 步 又 
举 个 例子 ， 图 20-3 展 示 了 Lua 脚 本 在 执行 以 下 命令 时 : 


redis> eturn redis.call('DBSIZE')" 0 
(in Re ege Ey Ee 





Lua 环 境 、 伪 客户 端 、 命 令 执行 器 三 者 之 间 的 通信 过 程 。 


1) 传送 DBSIZE 请 求 2) 将 DBSIZE 命令 传 给 执行 器 执行 


| 用 将 命令 结果 ti | 3) 返 回 命 令 的 执行 结果 10086 | 生 





图 20-3 Lua 脚本 执行 DBSIZE 命 令 时 的 通信 步 又 
20.2.2 ”lua_scripts 字 典 
除了 伪 客 户 端 之 外 ，Redis 服 务 器 为 Lua 环 境 创 建 的 男 一 个 协作 组 件 


是 lua_scripts 字 典 ， 这 个 字典 的 键 为 某 个 Lua 脚 本 的 SHA1 校 验 和 
(checksum) ， 而 字典 的 值 则 是 SHA1 校 验 和 对 应 的 Lua 脚 本 : 


Redis 服 务 器 会 将 所 有 被 EVAL 命 令 执行 过 的 Lua 脚 本 ， 以 及 所 有 被 
SCRIPT LOAD 命 令 载 入 过 的 Lua 脚 本 都 保存 到 lua_scripts 字 典 里 面 。 


举 个 例子 ， 如 果 客 户 端 向 服务 器 及 送 以 下 命令 : 





redis> 


redis> 





那么 服务 器 的 lua_scripts 字 典 将 包含 被 SCRIPT LOAD 命 令 载 入 的 三 
个 Lua 脚 本 ， 如 图 20-4 所 示 。 


lua scripts 


return "hits 
"2f31ba2bb6d6a0f42cc159q2e2dad55440778de3" 
"a21e1e8a43702b71046d4f6a7ccfto5b60cef6b9bd9" ome J 
"4475bfb5919b5ad16424cb50f74d4724ae833e72" 


Ureturn RZ 





图 20-4 ”lua_scripts 字 上 典 示例 


lua_scripts 字 典 有 两 个 作用 ， 一 个 是 实现 SCRIPT EXISTS 命 令 ， 男 
一 个 是 实现 脚本 复制 功能 ， 本 章 稍 后 将 详细 说 明 lua_scripts 字 典 在 这 两 
个 功能 中 的 作用 。 


20.3 EVAL 命令 的 实现 
EVAL 命 令 的 执行 过 程 可 以 分 为 以 下 三 个 步 双 C: 
1) 根据 客户 端 给 定 的 Lua 脚 本 ， 在 Lua 环 境 中 定义 一 个 Lua 函 数 。 


2) 将 客户 端 给 定 的 脚本 保存 到 lua_scripts 字 典 ， 等 待 将 来 进一步 使 
用 。 


ee 中 定义 的 函数 ， 以 此 来 执行 客户 端 给 定 的 
Lua 脚 本 。 


以 下 三 个 小 节 将 以 : 





redis> EVAL "return 'hello world'" 9 
"hello world" 





命令 为 示例 ， 分 别 介 绍 EVAL 命 令 执 行 的 三 个 步骤 。 
20.3.1 定义 脚本 函数 

当 客 户 端 癌 服务 器 发 送 EVAL 命 令 ， 要 求 执 行 某 个 Lua 脚 本 的 时 
候 ， 服 务 器 首先 要 做 的 就 是 在 Lua 环 境 中 ， 为 传 入 的 脚本 定义 一 个 与 这 


个 脚本 相对 应 的 Lua 函 数 ， 其 中 ，Lua 函 数 的 名 字 由 f _ 前缀 加 上 脚本 的 
ee 《四 十 个 字符 长 ) 组 成 ， 而 函数 的 体 “body) 则 是 脚本 本 


举 个 例子 ， 对 于 命令 : 





EVAL "return 'hello world'" 0 





来 说 ， 服 务 右 将 在 Lua 环 境 中 定义 以 下 函数 : 





function f_5332031c6b470dc5a0dd9b4bf2030dea6d65de91() 
return 'hello world' 
end 





因为 客户 端 传 入 的 脚本 为 return'hello world'， 而 这 个 脚本 的 SHA1 校 
验 和 为 5332031c6b470dc5a0dd9b4bf2030dea6d65de91， 所 以 函数 的 名 字 
为 f_5332031c6b470dc5a0dd9b4bf2030dea6d65de91， 而 函数 的 体 则 为 
return'hello world'。 


使 用 函数 来 保存 客户 端 传 入 的 脚本 有 以 下 好 处 : 
执行 脚本 的 步 又 非常 简单 ， 只 要 调用 与 脚本 相对 应 的 函数 即 可 。 


通过 函数 的 局 部 性 来 让 Lua 环 境 保持 清洁 ， 减 少 了 垃圾 回收 的 工作 
， 并 且 避 免 了 使 用 全 局 变量 。 


:如果 某 个 脚本 所 对 应 的 函数 在 Lua 环 境 中 被 定义 过 至 少 一 次 ， 那 么 
只 要 记得 这 个 脚本 的 SHA1 校 验 和 ， 服 务 器 就 可 以 在 不 知道 脚本 本 身 的 
情况 下 ， 直 接 通 过 调用 Lua 函 数 来 执行 脚本 ， 这 是 EVALSHA 命 令 的 实 
现 原理 ， 稍 后 在 介绍 EVALSHA 命 令 的 实现 时 就 会 说 到 这 一 点 。 


20.3.2 ”将 脚本 保存 到 lua_scripts 字 典 


EVAL 命 令 要 做 的 第 二 件 事 是 将 客户 端 传 入 的 脚本 保存 到 服务 器 的 
lua_scripts 字 典 里 面 。 举 个 例子 ， 对 于 命令 : 


tn 





EVAL "return 'hello world'" 0 





来 说 ， 服 务 器 将 在 lua_scripts 字 典 中 新 添加 一 个 键 值 对 ， 其 中 键 为 
Lua 脚 本 的 SHA1 校 验 和 : 





5332031c6b470dc5a0dd9b4bf2030dea6d65de91 
而 值 则 为 Lua 脚 本 本 身 : 


return 'hello world' 


添加 新 键 值 对 之 后 的 lua_scripts 字 典 如 图 20-5 所 示 。 


"5332031c6b470dc5a0dd9b4bf2030dea6d6ode91" [> "return 'hello world'" 


图 20-5 ”添加 新 键 值 对 之 后 的 lua_scripts 字 典 

20.3.3 ”执行 脚本 函数 

在 为 脚本 定义 函数 ， 并 且 将 脚本 保存 到 lua_scripts 字 典 之 后 ， 服 务 
器 还 需要 进行 一 些 设置 钩子 、 传 入 参数 之 类 的 准备 动作 ， 才 能 正式 开始 
执行 脚本 。 

整个 准备 和 执行 脚本 的 过 程 如 下 : 

1) 将 EVAL 命 令 中 传 入 的 键 名 (key name) 参数 和 脚本 参数 分 别 保 
存 到 KEYS 数 组 和 ARGV 数 组 ， 然 后 将 这 两 个 数组 作为 全 局 变量 传 入 到 
Lua 环 境 里 面 。 

2) 为 Lua 环 境 装 载 超 时 人 处理 钩子 (hook) ， 这 个 钧 子 可 以 在 脚本 出 
现 超时 运行 情况 时 ， 让 客户 端 通过 SCRIPT KILL 命 令 停 止 脚本 ， 或 者 通 
过 SHUTDOWN 命 令 直 接 关 闭 服务 器 。 

3) 执行 脚本 函数 。 

4) 移 除 之 前 装载 的 超时 钩子 。 


5) 将 执行 脚本 函数 所 得 的 结 有 果 保 存 到 客户 端 状态 的 输出 缓冲 区 里 
面 ， 等 待 服务 器 将 结果 返回 给 客户 端 。 


6) 对 Lua 环 境 执行 垃圾 回收 操作 。 
举 个 例子 ， 对 于 如 下 命令 : 











服务 器 将 执行 以 下 动作 : 


1) 因为 这 个 脚本 没有 给 定 任何 键 名 参数 或 者 脚本 参数 ， 所 以 服务 
器 会 跳 过 传 值 到 KEYS 数 组 或 ARGV 数 组 这 一 步 


2) 为 Lua 环 境 装 载 超 时 处 理 钓 子 。 


3) 在 Lua 环 境 中 执行 
f 5332031c6b470dc5a0dd9b4bf2030dea6d65de91 函 数 。 


4) 移 除 超时 钩子 。 


5) 将 执行 .5332031c6b470dc5a0dd9b4bf2030dea6d65de91 函 数 所 得 
的 结果 "hello world" 保 存 到 客户 端 状 态 的 输出 缓冲 区 里 面 。 


6) 对 Lua 环 境 执行 垃圾 回收 操作 。 
至 此 ， 命令 : 








EVAL "return 'hello world'" 0 





执行 算是 告 一 段落 ， 之 后 服务 器 只 要 将 保存 在 输出 缓冲 区 里 面 的 执 
结果 返 回 给 执行 EVAL 命 命令 的 客户 端 就 可 以 了 。 


20.4 EVALSHA 命 令 的 实现 


本 章 前 面 介 绍 EVAL 命 令 的 实现 时 说 过 ， 每 个 被 EVAL 命 令 成 功 执 
行 过 的 Lua 脚 本 ， 在 Lua 环 境 里 面 都 有 一 个 与 这 个 脚本 相对 应 的 Lua 函 
数 ， 函 数 的 名 字 由 f_ 前 级 加 上 40 个 字符 长 的 SHA1 校 验 和 组 成 ， 例 如 
f_5332031c6b470dc5a0dd9b4bf2030dea6d65de91。 


只 要 脚本 对 应 的 函数 曾经 在 Lua 环 境 里 面 定义 过 ， 那 么 即使 不 知道 
脚本 的 内 容 本 另 ， 客 户 端 也 可 以 根据 脚本 的 SHA1 校 验 和 来 调用 脚本 对 
应 的 函数 ， 从 而 达到 执行 脚本 的 目的 ， 这 束 是 EVALSHA 命 令 的 实现 原 
理 ， 





可 以 用 伪 代 码 来 描述 这 一 原理 : 





def EVALSHA(shal) : 
# 
拼接 出 函数 的 名 字 
例如 : f_5332031c6b470dc5a0dd9b4bf2030dea6d65de91 
func_name = "f_" + Shal 
# 
室 夺 这个 琴 人 Lug 
环境 中 是 否 存 
再 站 1 nction_exists_in_lua_env(func_name ) : 
时 本 下， 人 


te_lua_function(func_name) 
A 





# 
人 了 全 个 个 二 
ript_er pe SCRIPT NOT FOUND") 





举 个 例子 ， 当 服务 器 执行 完 以 下 EVAL 命 令 之 后 : 





redis> EVAL "return 'hello world'" 9 
"hello world" 





Lua 环 境 里 面 束 定义 了 以 下 函数 : 





function f_5332031c6b470dc5a0dd9b4bf2030dea6d65de91() 
return 'hello world' 
end 





当 客 户 端 执行 以 下 EVALSHA 命 令 时 : 








服务 器 首先 根据 客户 端 输 入 的 SHA1 校 验 和 ， 检 查 函 数 
f 5332031c6b470dc5a0dd9b4bf2030dea6d65de91 是 否 存在 于 Lua 环 境 中 ， 
得 到 的 回应 是 该 函数 确实 存在 ， 于 是 服务 右 执 行 Lua 环 境 中 的 
f 5332031c6b470dc5a0dd9b4bf2030dea6d65de91 函 数 ， 并 将 结果 "hello 
world" 返 回 给 客户 端 。 


20.5 ”脚本 管理 命令 的 实现 

除了 EVAL 命 令 和 EVALSHA 命 令 之 外 ， Redis 中 与 Lua 脚 本 有 关 的 合 

令 还 有 四 个 ， 已 们 分 另 | 是 SCRIPT FLUSH 命 令 由 、SCRIPT EXISTS 命 令 、 

SCRIPT LOAD 命 令 、 以 及 SCRIPT KILL 命 令 。 

接 下 来 的 四 个 小 节 将 分 别 对 这 四 个 命令 的 实现 原理 进行 介绍 。 
20.5.1 SCRIPT FLUSH 

SCRIPT ” FLUSH 命令 用 于 清除 服务 器 中 所 有 和 Lua 脚 本 有 关 的 信 
息 ， 这 个 命令 会 释放 并 重建 lua_scripts 字 典 ， 关 闭 现 有 的 Lua 环 境 并 重新 
创建 一 个 新 的 Lua 环 境 。 


以 下 为 SCRIPT FLUSH 命 令 的 实现 伪 代 码 : 





def SCRIPT_FLUSH(): 


释放 脚本 字典 
dictRelease(server.lua scripts) 


# 
重建 脚本 字 
server. ee _scripts = dictCreate(...) 


# 
人 
lua_close(server.1ua) 


初始 化 一 个 新 的 Lua 
处境 





server.lua = init_lua_env() 





20.5.2 SCRIPT EXISTS 


SCRIPT EXISTS 命 令 根 据 输入 的 SHA1 校 验 和 ， 检 查 校 验 和 对 应 的 
脚本 是 否 存在 于 服务 器 中 。 


SCRIPT EXISTS 命 令 是 通过 检查 给 定 的 校 验 和 是 否 存在 于 
lua_scripts 字 典 来 实现 的 ， 命令 的 实现 伪 代 码 ; 








def SCRIPT_EXISTS(*sha1l_ list): 


# 
结果 列表 
result_list = [] 


# 
遍历 输入 的 所 有 SHA1 
校 验 和 


for shai in shai list: 
# 


检查 校 验 和 是 否 为 lua_scripts 

字典 的 键 
# 

如 果 是 的 话 ， 那 么 表示 校 验 和 对 应 的 脚本 存在 
# 


否则 的 话 ， 脚 本 就 不 存在 
if shai in server.lua_ scripts: 
# 






































存在 用 1 
表示 
result_list.append(1) 
else: 
# 
不 存在 用 9 
表示 


result_list.append(0) 


# 
向 客户 端 返 回 结果 列表 
send_list_reply(result_list) 


Wrettri Uh 


"return 1+]" 


"4415bfb5919b5ad16424cb50f74d4124ae8338e72" 





"return 2*2" 
图 20-6 lua_scripts 字 典 


举 个 例子 ， 对 于 图 20-6 所 示 的 lua_scripts 字 典 来 说 ， 我 们 可 以 进行 以 
下 测试 : 





redis> SCRIPT EXISTS "2f31ba2bb6d6a0f42cc159d2e2dad55440778de3" 
1) (integer) 1 
redis> SCRIPT EXISTS "a27e7e8a43702b7046d4f6a7ccf5b60cef6b9bd9" 
1) (integer) 1 
redis> SCRIPT EXISTS "4475bfb5919b5ad16424cb50f74d4724ae833e72" 
1) (integer) 1 
redis> SCRIPT EXISTS "NotExistsScriptShaiHereABCDEFGHIJKLMNOPQ" 
1) (integer) 0 





从 测试 结果 可 知 ， 除 了 最 后 一 个 校 验 和 之 外 ， 其 他 校 验 和 对 应 的 肢 
本 都 存在 于 服务 器 中 。 


人 
Wy 注意 


SCRIPT ” ”EXISTS 命令 允许 一 次 传 入 多 个 SHA1 校 验 和 ， 不 过 因为 
SHA1 校 验 和 太 长 ， 所 以 示例 里 分 开 多 次 来 进行 测试 。 


实现 SCRIPT ”EXISTS 实际 上 并 不 需要 lua_scripts 字 典 的 值 。 如 果 
lua_scripts 字 典 只 用 于 实现 SCRIPT EXISTS 命 令 的 话 ， 那 么 字典 只 需要 
保存 Lua 脚 本 的 SHA1 校 验 和 就 可 以 了 ， 并 不 需要 保存 Lua 脚 本 本 里 。 
lua_scripts 字 典 既 保存 脚本 的 SHA1 校 验 和 ， 又 保存 脚本 本 和 映 的 原因 是 为 
0 详细 的 情况 请 看 本 章 稍 后 对 脚本 复制 功能 实现 原 
班 鸭 介 组 。 























20.5.3 SCRIPT LOAD 

SCRIPT LOAD 命 令 所 做 的 事情 和 EVAL 命 令 执行 脚本 时 所 做 的 前 两 
步 完 全 一 样 : 命令 首先 在 Lua 环 境 中 为 脚本 创建 相对 应 的 函数 ， 然 后 再 
将 脚本 保存 到 lua_scripts 字 典 里 面 。 


举 个 例子 ， 如 果 我 们 执行 以 下 命令 : 





redis> SCRIPT LOAD "return 'hi'" 
"2f31ba2bb6d6a6f42cc159d2e2dad55440778de3" 





那么 服务 器 将 在 Lua 环 境 中 创建 以 下 函数 : 





function f_2f31ba2bb6d6aof42cc159d2e2dad55440778de3() 
return "hi 
end 





并 将 键 为 "2f31ba2bb6d6a0f42cc159d2e2dad55440778de3"， 值 
为 "returmhi" 的 键 值 对 添加 到 服务 器 的 Jua_scripts 字 典 里 面 ， 如 图 20-7 所 
人 No 


人 


"2f31baZbb6d6auf42ccl59d2e2dad55440778de3" "return Hy ™ 


图 20-7 ”lua_scripts 字 上 典 


完成 了 这 些 步 又 之 后 ， 客 户 端 就 可 以 使 用 EVALSHA 命 令 来 执行 前 





面 被 SCRIPT LOAD 命 令 载 入 的 脚本 了 : 





redis> EVALSHA "2f31ba2bb6d6a0f42cc1i59d2e2dad55440778de3" 0 
mhinm 





20.5.4 SCRIPT KILL 


如 果 服 务 器 设置 了 lua-time-limit 配 置 选项 ， 那 么 在 每 次 执行 Lua 脚 本 
之 前 ， 服 务 器 都 会 在 Lua 环 境 里 面 设置 一 个 超时 人 处理 钩子 (hook) 。 


超时 处 理 钓 子 在 脚本 运行 期 间 ， 会 定期 检查 脚本 已 经 运行 了 多 长 时 
间 ， 一 旦 钩子 发 现 脚本 的 运行 时 间 已 经 超过 了 lua-tme-limit 选 项 设置 的 
时 长 ， 钩 子 将 定期 在 脚本 运行 的 间隙 中 ， 碍 看 是 否 有 SCRIPT KILL 命 令 
或 者 SHUTDOWN 命 令 到 达 服 务 器 。 


图 20-8 展 示 了 带 有 超时 处 理 钩 子 的 脚本 的 运行 过 程 。 








开始 执行 脚本 


脚本 执行 完毕 ? 














定期 调用 钩子 
检查 脚本 是 否 已 
超时 运行 ? 


有 SCRIPT KILL 
或 者 SHUTDOWN 
NOSAVE 到 达 ? 


执行 SCRIPT KILL 继续 执行 脚本 
或 者 SHUTDOWN 
图 20-8 ”和 带 有 超时 处 理 钓 子 的 脚本 的 执行 过 程 
如 果 超 时 运行 的 脚本 未 执行 过 任何 写 入 操作 ， 那 么 客户 端 可 以 通过 
SCRIPT KILL 命 令 来 指示 服务 器 停止 执行 这 个 脚本 ， 并 向 执行 该 脚本 的 


客户 端 发 送 一 个 错误 回复 。 处 理 完 SCRIPT KILL 命 令 之 后 ， 服 务 器 可 以 
继续 运行 。 





男 一 方面 ， 如 果 脚 本 已 经 执行 过 写 入 操作 ， 那 么 客户 端 只 能 用 
ny nosave 命 令 来 停止 服务 器 ， 从 而 防止 不 合法 的 数据 被 写 入 
数据 


20.6 ”脚本 复制 


与 其 他 普通 Redis 命 令 一 样 ， 当 服务 器 运行 在 复制 模式 之 下 时 ， 具 
有 写 性 质 的 脚本 命令 也 会 被 复制 到 从 服务 器 ， 这 些 命 令 包括 EVAL 命 
令 、EVALSHA 命 令 、SCRIPT FLUSH 人 命令， 以 及 SCRIPT LOAD 命令 。 


接 下 来 的 两 个 小 节 将 分 别 介 绍 这 四 个 命令 的 复制 方法 。 
20.6.1 复制 EVAL 命 令 、SCRIPT FLUSH 命 令 和 SCRIPT 
LOAD 命 令 


Redis 复 制 EVAL、SCRIPT FLUSH、SCRIPT LOAD 三 个 命令 的 方法 
和 复制 其 他 普通 Redis 命 令 的 方法 一 样 ， 当 主 服务 絮 执行 完 以 上 三 个 命 
令 的 其 中 一 个 时 ， 主 服务 器 会 直接 将 被 执行 的 命令 传播 (propagate) 给 
所 有 从 服务 器 ， 如 图 20-9 所 示 。 


SCRIPT FLUSH 


吕 


poy 


SCRIPT LOAD 







或 者 
SCRIPT FLUSH 


















EVAL 或 者 
或 者 SCRIPT LOAD | 从 服务 器 2 
SCRIPT FLUSH 
或 者 EVAL 





SCRIPT LOAD 或 者 
SCRIPT FLUSH 


或 者 


SCRIPT LOAD 














EVAL 
或 者 
SCRIPT FLUSH 
或 者 
SCRIPT LOAD 














从 服务 器 N 






图 20-9 ”将 脚本 命令 传播 给 从 服务 器 
1.EVAL 


对 于 EVAL 命 令 来 说 ， 在 主 服 务 器 执行 的 Lua 脚 本 同样 会 在 所 有 从 
服务 器 中 执行 。 


举 个 例子 ， 如 宁 客 户 端 同 主 服务 器 执行 以 下 命令 : 


redis> EVAL "return redis.call('SET', KEYS[1], ARGV[1])" 1 "msg" "hello world" 
OK 


那么 主 服务 器 在 执行 这 个 EVAL 命 令 之 后 ， 将 同 所 有 从 服务 器 传播 
这 条 EVAL 命 令 ， 从 服务 器 会 接收 并 执行 这 条 EVAL 命 令 ， 最 终结 果 
0 msg" 键 的 值 设 置 为 "hello world"， 并 
且 将 脚 





"return redis.call('SET', KEYS[1], ARGV[1])" 


保存 在 脚本 字典 里 面 。 
2.SCRIPT FLUSH 


如 果 客 户 端 癌 主 服务 器 友 送 SCRIPT LUSH 命令 ， 那么 主 服 务 器 也 
会 向 所 有 从 服务 器 传播 SCRIPT FLUSH 命 令 。 


最 终 的 结果 是 ， 主 从 服务 器 双方 都 会 重 置 目 己 的 Lua 环 境 ， 并 清空 
自己 的 脚本 字典 。 


3.9CRIPT LOAD 


如 果 客 户 端 使 用 SCRIPT LOAD 命 令 ， 门 主 服 务 嚣 载 入 一 个 Lua 采 
本 ， 那 么 主 服 务 器 将 向 所 有 从 服务 器 传播 相同 的 SCRIPT LOAD 命令 ， 
使 得 所 有 从 服务 器 也 会 载 入 相同 的 Lua 脚 本 。 


举 个 例子 ， 如 宁 客 户 端 癌 主 服务 髓 发 送 命令 : 


redis> SCRIPT LOAD "r 'hello world' 
"5332031c6b470dc5al de bats A665de 91" 





那么 主 服 务 器 也 会 同 所 有 从 服务 器 传播 同样 的 命令 : 


最 终 的 结果 是 ， 主 从 服务 器 双方 都 会 载 入 脚本 : 





"return 'hello world'" 





20.6.2 ”复制 EVALSHA 命 令 


EVALSHA 命 令 是 所 有 与 Lua 脚 本 有 关 的 命令 中 ， 复制 操作 最 复杂 
的 一 个 ， 因 为 主 服 务 器 与 从 服务 器 载 入 Lua 脚 本 的 情况 可 能 有 所 不 同 ， 
所 以 主 服务 器 不 能 像 复 制 EVAL 命 令 、SCRIPT LOAD 命令 或 者 SCRIPT 
FLUSH 命 令 那样 ， 直 接 将 EVALSHA 命 令 传 播 给 从 服务 器 。 对 于 一 个 在 
主 服 务 器 被 成 功 执行 的 EVALSHA 命 令 来 说 ， 相 同 的 EVALSHA 命 令 在 
从 服务 器 执行 时 却 可 能 会 出 现 脚本 未 找到 (not found) 错误。 


举 个 例子 ， 假 设 现在 有 一 个 主 服务 器 master， 如 果 客 户 端 向 主 服务 
器 发 送 命令 ， 





ter> SCRIPT LOAD "ret 'hello world' 
"5332031c6b470dc 5a0dd9b4bf2636dsa6d65ds91 








那么 在 执行 这 个 SCRIPT LOAD 命 令 之 后 ，SHA1 值 为 
5332031c6b470dc5a0dd9b4bf2030dea6d65de91 的 脚本 就 存在 于 主 服务 器 
中 了 oo 


现在 ， 假 设 一 个 从 服务 器 slavel 开 始 复 制 主 服务 器 master， 如 果 
master 不 想 办 法 将 脚本 : 





"return 'hello world'" 





传送 给 slavel 载 入 的 话 ， 那 么 当 客 户 端 问 主 服务 器 发 送 命令 





master i "5332031c6b4769dc5a0dd9b4bf2030dea6d65de91" 0 
"hello orld" 





的 时 候 ，master 将 成 功 执 行 这 个 EVALSHA 命 令 ， 而 当 master 将 这 
命令 传播 给 slavel1 执 行 的 时 候 ，slave1l 却 会 出 现 脚 本 未 找到 错误 : 





slave1> EVALSHA "5332031c6b470dc a neade 91" 0 
(error) NOSCRIPT No matching script. Plea 





更 为 复杂 的 是 ， 因 为 多 个 从 服务 器 之 间 载 入 Lua 脚 本 的 情况 也 可 能 
各 有 不 同 ， 所 以 即使 一 个 EVALSHA 命 令 可 以 在 某 个 从 服务 器 成 功 执 
行 ， 也 不 代表 这 个 EVALSHA 命 令 束 一 定 可 以 在 另 一 个 从 服务 器 成 功 执 
行 ， 


举 个 例子 ， 假 设 有 主 服务 器 master 和 从 服务 器 slave1， 并 且 slave1 一 
直 复 制 着 master， 所 以 master 载 入 的 所 有 Lua 脚 本 ，slavel 也 有 载 入 〈 通 
过 传播 EVAL 命令 或 者 SCRIPT LOAD 命 令 来 实现 ) 。 


例如 说 ， 如 果 客 户 端 同 master 发 送 命 令 : 





Ste CRIPT LOAD "r 'hello world' 
0 6b470dc5al aud Eap ras aGd6Sde 91" 


那么 这 个 命令 也 会 被 传播 到 slavel1 上 上面， 所 以 master 和 slave1l 都 会 成 
功 载 入 SHA1 校 验 和 为 5332031c6b470dc5a0dd9b4bf2030dea6d65de91 的 
Lua 脚 本 。 


如 果 这 时 ， 一 个 新 的 从 服务 器 slave2 开 始 复 制 主 服 务 器 master， 如 
果 master 不 想 办 法 将 脚本 : 


"return 'hello world'" 


传送 给 slave2 的 话 ， 那 么 当 客 户 端 同 主 服务 器 发 送 命令 


master> EVALSHA "5332031c6b4709dc5a0dd9b4bf2030dea6d65de91" 0 
"hello world" 





的 时 候 ，master 和 slavel 都 将 成 功 执行 这 个 EVALSHA 命 令 ， 而 
slave2 却 会 发 生 脚 本 未 找到 错误 。 


为 了 防止 以 上 假设 的 情况 出 现 ，Redis 要 求 主 服务 器 在 传播 
EVALSHA 命 令 的 时 候 ， 必 须 确保 EVALSHA 命 令 要 执行 的 脚本 已 经 被 
所 有 从 服务 器 载 入 过 ， 如 果 不 能 确保 这 一 点 的 话 ， 主 服务 器 会 将 
EVALSHA 命 令 转 换 成 一 个 等 价 的 EVAL 命 令 ， 然 后 通过 传播 EVAL 命令 
来 代替 EVALSHA 命 令 。 


传播 EVALSHA 命 令 ， 或 者 将 EVALSHA 命 令 转 换 成 EVAL 命 令 ， 都 
需要 用 到 服务 器 状态 的 lua_scripts 字 典 和 repl_scriptcache_dict 字 典 ， 接 下 
来 的 小 节 将 分 别 介绍 这 两 个 字典 的 作用 ， 并 最 终 说 明 Redis 复 制 
EVALSHA 命 令 的 方法 。 


1. 判 断 传播 EVALSHA 命 令 是 否 安全 的 方法 


主 服务 器 使 用 服务 器 状态 的 repl_scriptcache_dict 字 上 典 记 录 自 己 已 经 
将 哪些 脚本 传播 给 了 所 有 从 服务 器 : 














repl_scriptcache_dict 字 典 的 键 是 一 个 个 Lua 脚 本 的 SHA1 校 验 和 ， 而 
字典 的 值 则 全 部 都 是 NULL， 当 一 个 校 验 和 出 现在 repl_scriptcache_dict 





字典 时 ， 说 明 这 个 校 验 和 对 应 的 Lua 脚 本 已 经 传播 给 了 所 有 从 服务 器 ， 
主 服 务 器 可 以 直接 癌 从 服务 器 传播 包含 这 个 SHA1 校 验 和 的 EVALSHA 命 
令 ， 而 不 必 担 心 从 服务 器 会 出 现 脚本 未 找到 错误 。 





NULL 

"a27elTe8a43702b7046d4f6aiccf5b60cef6b9bd9" NULL 
"4475bftb5919b5ad16424cb50f74d4724ae833e72" 

NULL 


图 20-10 ”一 个 repl_scriptcache_dict 字 — 典 示例 


举 个 例子 ， 如 果 主 服务 器 repl_scriptcache_dict 字 典 的 当前 状态 如 图 
20-10 所 示 ， 那 么 主 服 务 器 可 以 疝 从 服务 占 传 播 以 下 三 个 EVALSHA 命 
令 ， 并 且 从 服务 器 在 执行 这 些 EVALSHA 命 令 的 时 候 不 会 出 现 脚 本 未 找 
到 错误 : 





EVALSHA "2f31ba2bb6d6agf42cc159d2e2dad55440778de3"” ... 
EVALSHA "a27e7e8a43702b7046d4f6a7ccf5b60cef6b9bd9" . . 


EVALSHA "4475bfb5919b5ad16424cb509f74d4724ae833e72"” ... 





另 一 方面 ， 如 果 一 个 脚本 的 SHA1 校 验 和 存在 于 lua_scripts 字 典 ， 但 
是 却 不 存在 于 repl_scriptcache_dict 字 典 ， 那 么 说 明 校 验 和 对 应 的 Lua 脚 本 
己 经 被 主 服 务 器 载 入 ， 但 是 并 没有 传播 给 所 有 从 服务 器 ， 如 果 我 们 尝试 
向 从 服务 器 传播 包含 这 个 SHA1 校 验 和 的 EVALSHA 命 令 ， 那 么 至 少 有 一 
个 从 服务 器 会 出 现 脚 本 未 找到 错误 。 


"return ‘hi'" 


return 1+1" 


"return 2*2" 





"return 'hello world"'" 
图 20-11 lua_scripts 字 典 


举 个 例子 ， 对 于 图 20-11 所 示 的 lua_scripts 字 典 ， 以 及 图 20-10 所 示 的 
repl_scriptcache_dict 字 典 来 说 ，SHA1 校 验 和 为 : 





"5332031c6b470dc5a0dd9b4bf2030dea6d65de91" 





的 脚本 : 





"return 'hello world'" 





虽然 存在 于 lua_scripts 字 典 ， 但 是 repl_scriptcache_dict 字 典 却 并 不 包 
含 校 验 和 "5332031c6b470dc5a0dd9b4bf2030dea6d65de91"， 这 说 明 脚 


讲 








虽然 已 经 载 入 到 主 服 务 嚣 里面， 但 并 未 传播 给 链 有 从 服务 器 ， 如 果 
主 服 务 器 符 试 癌 从 服务 需 发 送 命令 : 


EVALSHA "5332031c6b470dc5a0dd9b4bf2030dea6d65de91"” . . 


那么 至 少 会 有 一 个 从 服务 器 遇 上 脚本 未 找到 错误 。 
2. 清 空 repl_scriptcache_dict 字 典 


每 当主 服务 器 添加 一 个 新 的 从 服务 器 时 ， 主 服务 右 都 会 清空 自己 的 
repl_scriptcache_dict 字 典 ， 这 是 因为 随 着 新 从 服务 占 的 出 现 ， 
repl_scriptcache_dict 字 典 里 面 记录 的 脚本 已 经 不 再 被 所 有 从 服务 器 载 入 
过 ， 所 以 主 服 务 器 会 清空 repl_scriptcache_dict 字 典 ， 强 制 自己 重新 向 所 
有 从 服务 器 传播 脚本 ， 从 而 确保 新 的 从 服务 器 不 会 出 现 脚本 未 找到 错 


天。 





3.EVALSHA 命 令 转 换 成 EVAL 命 令 的 方法 


通过 使 用 EVALSHA 命 令 指 定 的 SHA1 校 验 和 ， 以 及 lua_scripts 字 典 
保存 的 Lua 脚 本 ， 服 务 器 总 可 以 将 一 个 EVALSHA 命 令 : 





EVALSHA <shai> <numkeys> [key ...] [arg ...] 
转换 成 一 个 等 价 的 EVAL 命 令 : 


EVAL <script> <numkeys> [key ...] [arg ...] 


具体 的 转换 方法 如 下 : 


1) 根据 SHA1 校 验 和 shal， 在 lua_scripts 字 典 中 查找 shal 对 应 的 Lua 
脚本 script。 


2) 将 原来 的 EVALSHA 命 令 请 求 改写 成 EVAL 命 令 请 求 ， 并 且 将 校 
验 和 shal 改 成 脚本 script， 至 于 numkeys、key、arg 等 参数 则 保持 不 变 。 


举 个 例子 ， 对 于 图 20-11 所 示 的 lua_scripts 字 典 ， 以 及 图 20-10 所 示 的 


repl_scriptcache_dict 字 上 典 来 说 ， 我 们 总 可 以 将 命令 





EVALSHA "5332031c6b470dc5a0dd9b4bf2030dea6d65de91"” 0 











改写 成 命令 
其 中 脚本 的 内 容 : 





"return 'hello world'" 





来 源 于 lua_scripts 字 
典 “5332031c6b470dc5a0dd9b4bf2030dea6d65de91” 键 的 值 。 


如 果 一 个 SHA1 值 所 对 应 的 Lua 脚 本 没有 被 所 有 从 服务 器 载 入 过 ， 那 
么 主 服务 器 可 以 将 EVALSHA 命 令 转 换 成 等 价 的 EVAL 命 令 ， 然 后 通过 
传播 等 价 的 EVAL 命 令 来 代 蔡 原本 想 要 传播 的 EVALSHA 命 令 ， 以 此 来 
产生 相同 的 脚本 执行 效果 ， 并 确保 所 有 从 服务 器 都 不 会 出 现 脚本 未 找到 


错误 天。 


另外 ， 因 为 主 服务 器 在 传播 完 EVAL 命 令 之 后 ， 会 将 被 传播 脚本 的 
SHA1 校 验 和 (也 即 是 原本 EVALSHA 命 令 指定 的 那个 校 验 和 ) 添加 到 
repl_scriptcache_dict 字 典 里 面 ， 如 果 之 后 EVALSHA 命 令 再 次 指定 这 个 
SHA1 校 验 和 ， 、 主 服务 器 就 可 以 直接 传播 EVALSHA 命 令 ， 而 不 必 再 次 对 
EVALSHA 命 令 进行 转换 。 





4. 传 播 EVALSHA 命 令 的 方法 


当主 服务 器 成 功 在 本 机 执行 完 一 个 EVALSHA 命 令 之 后 ， 它 将 根据 
EVALSHA 命 令 指 定 的 SHA1 校 验 和 是 和 否 存 在 于 repl_ scriptcache_dict 字 上 典 
来 决定 是 向 从 服务 器 传播 EVALSHA 命 令 还 是 EVAL 命 令 : 


1) 如 果 EVALSHA 命 令 指定 的 SHA1 校 验 和 存在 于 
repl Scriptcache dict 字 典 ， 那 么 主 服 务 器 直接 回 从 服务 器 传播 
EVALSHA 命 令 。 





2) 如 果 EVALSHA 命 令 指定 的 SHA1 校 验 和 不 存在 于 
repl_scriptcache_dict 字 典 ， 那 么 主 服务 器 会 将 EVALSHA 命 令 转 换 成 等 
价 的 EVAL 命 令 ， 然 后 传播 这 个 等 价 的 EVAL 命 令 ， 并 将 EVALSHA 命 令 
指定 的 SHA1 校 验 和 添加 到 repl_scriptcache_dict 字 典 里 面 。 


图 20-12 展 示 了 这 个 判断 过 程 。 


主 服 务 器 在 本 机 执行 完 命令 





EVALSHA <shal> <numkeys> [key ,,,| [arg ,,,] 










校 验 和 shal 是 否 存在 于 


repl scriptcache dict 字 典 ? 


是 作 
人 ee 
人 


人 和 


EVAL <script> numkeyS>》 [key ,,,] [arg ,,,] 


将 shal 添 加 到 
repl scriptcache dict 字 上 典 


图 20-12” 主 服务 器 判断 传播 EVAL 还 是 EVALSHA 的 过 程 





举 个 例子 ， 假 设 服 务 器 当前 lua _scripts 字 上 典 和 repl_ scriptcache_dict 字 
典 的 状态 如 图 20-13 所 示 ， 如 果 客 户 端 癌 主 服务 器 发 送 命 令 : 





EVALSHA "5332031c6b470dc5a0dd9b4bf2030dea6d65de91"” 0 


那么 主 服务 器 在 执行 完 这 个 EVALSHA 命 令 之 后 ， 会 将 这 个 
EVALSHA 命 令 转 换 成 等 价 的 EVAL 命 令 : 








EVAL "return 'hello world'" 0 





"return ‘hi'™" 
lua scripts 
"2f31ba2bbbdba0f42cc1l59d2e2dad55440778de3" 
"return 1+1" 
"a27eye8a43702b7046d4f6a7ccf5b60cef6b9bd9" 
"4475bfb5919b5ad16424cb50f7404724ae833e720 
"return 2*2" 





"05332031c6b470dc5a0dd9b4bf2030deabd65de91" 
"return 'hello world'" 


repl scriptcache dict NULL 
"2f31ba2bb6d6a0f42cc159d2e2dad55440778de3" 
"a21e1e8a43702b7046d4f6a7ccf5b60cef6b9bd9" NULL 
"4475bfpb5919b5ad16424cb50f74d4724ae833e712" 





NULL 
图 20-13 ”执行 EVALSHA 命 令 之 前 的 lua_scripts 字 上 典 和 
repl]_scriptcache_dict 字 上 典 


并 加 所 有 从 服务 器 传播 这 个 EVAL 命 令 。 


除 此 之 外 ， 主 服务 器 还 会 将 SHA1 校 验 
和 "5332031c6b470dc5a0dd9b4bf2030dea6d65de91" 添 加 到 
repl_scriptcache_dict 字 典 里 ， 这 样 当 客户 端 下 次 再 发 送 命令 : 





EVALSHA "5332031c6b470dc5a0dd9b4bf2030dea6d65de91"” 0 


的 时 候 ， 主 服务 器 束 可 以 直接 癌 从 服务 器 传播 这 个 EVALSHA 命 
令 ， 而 无 须 将 EVALSHA 命 令 转 换 成 EVAL 命 令 再 传播 。 


添加 "5332031c6b470dc5a0dd9b4bf2030dea6d65de91" 之 后 的 
repl_scriptcac-he_dict 字 典 如 图 20-14 所 示 。 





图 20-14 执行 EVALSHA 命 令 之 后 的 repl_scriptcache_dict 字 典 


20.7 重点 回顾 


“Redis 服 务 器 在 局 动 时， 会 对 内 购 的 Lua 环 境 执 行 一 系列 修改 操作 ， 
从 而 确保 内 嵌 的 Lua 环 次 可 以 满足 Redis 在 功能 性、 安全 性 等 方面 的 需 
女 o 


Redis 服 务 器 专门 使 用 一 个 伪 客 户 问 来 执行 Lua 脚 本 中 包含 的 Redis 


他 





.Redis 使 用 脚本 字典 来 保存 所 有 被 EVAL 命 令 执行 过 ， 或 者 被 
SCRIPT LOAD 命令 载 入 过 的 Lua 脚 本 ， 这 些 脚 本 可 以 用 于 实现 SCRIPT 
EXISTS 人 命令， 以 及 实现 脚本 复制 功能 。 


EVAL 命 令 为 客户 端 输入 的 脚本 在 Lua 环 境 中 定义 一 个 函数 ， 并 通 
过 调用 这 个 函数 来 执行 脚本 。 


.EVALSHA 命 令 通 过 直接 调用 Lua 环 境 中 已 定义 的 函数 来 执行 脚 


:SCRIPT FLUSH 命 令 会 清空 服务 器 lua_scripts 字 典 中 保存 的 脚本 ， 
并 重 置 Lua 环 境 。 


“SCRIPT EXISTS 命 令 接 受 一 个 或 多 个 SHA1 校 验 和 为 参数 ， 并 通过 
检查 lua_scripts 字 典 来 确认 校 验 和 对 应 的 脚本 是 否 存在 。 


.SCRIPT LOAD 命 令 接受 一 个 Lua 脚 本 为 参数 ， 为 该 脚本 在 Lua 环 境 
中 创建 函数 ， 并 将 脚本 保存 到 lua_scripts 字 典 中 。 


.服务 器 在 执行 脚本 之 前 ， 会 为 Lua 环 境 设 置 一 个 超时 处 理 钩 子 ， 当 
脚本 出 现 超时 运行 情况 时 ， 客 户 端 可 以 通过 向 服务 器 发 送 SCRIPT KILL 
命令 来 让 和 钓 子 停止 正在 执行 的 脚本 ， 或 者 发 送 SHUTDOWN nosave 命 令 
来 让 钓 子 关闭 整个 服务 器 。 

: 主 服 务 器 复制 EVAL、SCRIPT FLUSH、SCRIPT LOAD 三 个 命令 
| 复制 普通 Redis 命 令 一 样 ， 只 要 将 相同 的 命令 传播 给 从 服务 器 
就 可 以 了 。 


. 主 服 务 器 在 复制 EVALSHA 命 令 时 ， 必 须 确 保 所 有 从 服务 器 都 已 经 
载 入 了 EVALSHA 命 令 指 定 的 SHA1 校 验 和 所 对 应 的 Lua 脚 本 ， 如 果 不 能 
确保 这 一 点 的 话 ， 主 服务 器 会 将 EVALSHA 命 令 转 换 成 等 效 的 EVAL 命 
令 ， 并 通过 传播 EVAL 命 令 来 获得 相同 的 脚本 执行 效果 。 


20.8 ”参考 资料 


《Lua 5.1 Reference Manual》 对 Lua 语 言 的 语法 和 标准 库 进行 了 很 
好 的 介绍 : http:/www.lua.org/manual/5.1/manual.html 





第 21 章 ”排序 


令 可 以 对 列表 键 、 集 合 键 或 者 有 序 集合 键 的 值 进行 
亨 。 


以 下 代码 展示 了 SORI 命 令 对 列表 键 进 行 排序 的 例子 ; 








redis> RPUSH numbers 5 3 1 4 2 
(integer) 5 


按 插入 顺序 排列 的 列表 元 素 
redis> LRANGE numbers 9 -1 


# 
按 值 从 小 到 大 有 序 排列 的 列表 元 素 
redis> SORT numbers 


DN 
—— 
IN 


3 
4) a 
) "5 1 








以 下 代码 展示 了 SORT 命 令 使 用 ALPHA 选 项 ， 对 一 个 包含 字符 串 值 
的 集合 键 进行 排序 的 例子 : 





redis> SADD alphabet a b cdefqg 
(nteger) 7 


矶 序 排列 的 集 合 元 素 
redis> SMEMBERS alphabet 





a 
一 
Oo 避 o na sao 


排序 后 的 集合 元 素 
redis> SORT alphabet ALPHA 
man 





2 
从 
'd 
5) "en 
uf" 
9 





接 下 来 的 例子 使 用 了 SORT 命 令 和 BY 选项 ， 以 jack_number、 
peter_number、tom_number 三 个 键 的 值 为 权重 (weight) ， 对 有 序 集合 
test-result 中 的 "jack"、"peter"、"tom" 三 个 成 员 (member〉 进行 排序 : 





redis> ZADD test-result 3.0 jack 3.5 peter 4.0 tom 
(integer) 3 
# 


按 元 素 的 分 值 排 列 


# 

为 各 个 元 素 设置 序号 

redis> MSET peter_number 1 tom number 2 jack_number 3 
OK 


# 

以 序号 为 权重 ， 对 有 序 集合 中 的 元 素 进行 排序 
redis> SORT test-result BY *_number 
业 本 ER 

2) "tom" 

3) "jack" 











本 章 将 对 SORT 命 令 的 实现 原理 进行 介绍 ， 并 说 明 包 括 ASC、 
DESC、ALPHA、LIMIT、STORE、BY、GET 在 内 的 所 有 SORT 命 令 选 
项 的 实现 原理 。 


除 此 之 外 ， 本 章 还 将 说 明 当 SORT 命 令 同 时 使 用 多 个 选项 时 ， 各 个 
不 同 选 项 的 执行 顺序 ， 以 及 选项 的 执行 顺序 对 排序 结果 所 产生 的 影响 。 





21.1 SORT<key> 命 令 的 实现 


SORT 命 令 的 最 简单 执行 形式 为 : 





SORT <key> 





这 个 命令 可 以 对 一 个 包含 数字 值 的 键 key 进 行 排序。 


以 下 示例 展示 了 如 何 使 用 SORT 命 令 对 一 个 包含 三 个 数字 值 的 列表 
键 进行 排序 : 











服务 器 执行 SORT numbers 命 令 的 详细 步骤 如 下 : 


1) 创建 一 个 和 numbers 列 表 长 度 相同 的 数组 ， 该 数组 的 每 个 项 都 是 
一 个 redis.h/redisSortObject 结 构 ， 如 图 21-1 所 示 。 


arraVy [0 ] 
redisSortObject 


arrayll] 
redisSortObject 


arrav[2] 
redisSortObject 





图 21-1 命令 为 排序 numbers 列 表 而 创建 的 数组 


2) 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指向 numbers 列 表 的 各 
个 项 ， 构 成 obj 指 针 和 列表 项 之 间 的 一 对 一 关系 ， 如 图 21-2 所 示 。 

3) 遍历 数组 ， 将 各 个 obj 指 针 所 指 疝 的 列表 项 转换 成 一 个 double 类 
型 的 浮 点 数 ， 并 将 这 个 浮 点 数 保存 在 相应 数组 项 的 uscore 属 性 里 面 ， 如 
图 21-3 所 示 。 


4) 根据 数组 项 u.score 属 性 的 值 ， 对 数组 进行 数字 值 排序 ， 排 序 后 
的 数组 项 按 u.score 属 性 的 值 从 小 到 大 排列 ， 如 图 21-4 所 示 。 

5) 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 所 指向 的 列表 项 作为 排序 结 
果 返 回 给 客户 端 ， 程 序 首先 访问 数组 的 索引 0， 返 回 u.score 值 为 1.0 的 列 
表 项 "1"; 然后 访问 数组 的 索引 1， 返 回 u.score 值 为 2.0 的 列表 项 "2"; 最 
后 访问 数组 的 索引 2， 返 回 u.score 值 为 3.0 的 列表 项 "3"。 


其 他 SORT<key> 命 令 的 执行 步骤 也 和 这 里 给 出 的 SORT numbers 命 
令 的 执行 步骤 类 似 。 


array[ to = 


redisSortObject 
p: Strlngobject Strlngobject 
array[]] 09] [本 nn mon 
redisSortObject 
array[2] 
redisSortObject 


图 21-2 ”将 obj 指 针 指 向 列表 的 各 个 项 






























arrayl[0] 
| oma] | een 


array[]] String0bject i 


redisSortObject "3 









array [2] 
redisSortObject 


array[0] 
redisSortObject 


array[]] 
redlsSortObject 


array [2] 
redisSortObject 
图 21-4 “排序 后 的 数组 


以 下 是 redisSortObject 结 构 的 完整 定义 : 












typedef struct _redisSortobject { 


被 排序 键 的 值 
robj *obj; 
// 





权重 


union { 











J 
排序 数字 值 时 使 
double score; 
a 
排序 带 有 BY 
选项 的 字符 串 值 时 使 
robj *cmpobj; 


























} uu; 
} redisSortObject; 





SORT 命 令 为 每 个 被 排序 的 键 都 创建 一 个 与 键 长 度 相 同 的 数组 ， 数 
组 的 每 个 项 都 是 一 个 redisSortObject 结 构 ， 根 据 SORT 命 令 使 用 的 选项 不 
同 ， 程 序 使 用 redisSortObject 结 构 的 方式 也 不 同 ， 稍 后 介绍 SORT 命 令 的 
各 种 选项 时 我 们 会 看 到 这 一 点 。 


21.2 ALPHA 选项 的 实现 
过 使 用 ALPHA 选 项 ，SORTI 命 令 可 以 对 包含 字符 串 值 的 键 进行 排 





序 ， 





SORT <key> ALPHA 





以 下 命令 展示 了 如 何 使 用 SORT 命 令 对 一 个 包含 三 个 字符 串 值 的 集 
合 键 进行 排序 : 





redis> SADD fruits apple banana cherry 
(integer) 3 


dt 
redis> SMEMBERS fruits 





a its ALPHA 
n 





服务 器 执行 SORT fruits ALPHA 命 令 的 详细 步骤 如 下 : 


1) 创建 一 个 redisSortObject 结 构 数组 ， 数 组 的 长 度 等 于 fruits 集 合 的 
yd 


2) 人 裔 历数 组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指 向 fruits 集 合 的 各 个 元 
素 ， 如 图 21-5 所 示 。 


3) 根据 obj 指 针 押 指 回 的 集合 元 素 ， 对 数组 进行 字符 串 排 序 ， 排 序 
后 的 数组 项 按 集 合 元 素 的 字符 串 值 从 小 到 大 排列 : 
为 "apple"、"banana"、"cherry" 三 个 字符 串 的 大 小 顺序 为 "apple"<"banana" 
<"cherry", 所 以 排序 后 数组 的 第 一 项 指 由 "apple" 元 素 ， 第 二 项 指 
向 "banana" 元 素 ， 第 三 项 指向 "cherry" 元 素 ， 如 图 21-6 所 示 。 


裔 历数 组 ， 依 次 将 数组 项 的 obj 指 针 所 指向 的 元 素 返 回 给 客户 


其 他 SORT<key>ALPHA 命 令 的 执行 步骤 也 和 这 里 给 出 的 SORT 


fruits ALPHA 命 令 的 执行 步骤 类 似 。 
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图 21-5 ”将 obj 指 针 指 癌 集合 的 各 个 元 系 
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图 21-6 ” 按 集 合 元 系 进行 排序 后 的 数组 


21.3 ASC 选 项 和 DESC 选 项 的 实现 


在 默认 情况 下 ，SORT 命 令 执行 升序 排序 ， 排 序 后 的 结果 按 值 的 大 
小 从 小 到 大 排列 ， 以 下 两 个 命令 是 完全 等 价 的 : 











SORT <key> 
SORT <key> ASC 


相反 地 ， 在 执行 SORT 命 令 时 使 用 DESC 选 项 ， 可 以 让 命令 执行 降序 
排序 ， 让 排序 后 的 结果 按 值 的 大 小 从 大 到 小 排列 : 





SORT <key> DESC 








以 下 是 两 个 对 numbers 列 表 进 行 升序 排序 的 例子 ， 第 一 个 命令 根据 
默认 设置 ， 对 numbers 列 表 进 行 升序 排序 ， 而 第 二 个 命令 则 通过 显 式 地 
使 用 ASC 选 项 ， 对 numbers 列 表 进 行 升序 排序 ， 两 个 命令 产生 的 结 采 完 








3) "3" 
redis> SORT numbers ASC 
) "1" 


于 
2) "2" 
3) "3" 


与 升序 排序 相反 ， 以 下 是 一 个 对 numbers 列 表 进 行 降序 排序 的 例 


redis> SORT numbers DESC 
man 


2) "2" 
3) "1" 


升序 排序 和 降序 排 友 部 由 相同 的 快速 排序 算法 执行 ， 它 们 之 间 的 不 
同 之 处 在 于 : 


-在 执行 升序 排序 时 ， 排 序 算法 使 用 的 对 比 函 数 产 生 升序 对 比 结 


果 。 


:而 在 执行 降序 排序 时 ， 排 序 算法 所 使 用 的 对 比 函 数 产 生 降 序 对 比 


结 采 。 


因为 升序 对 比 和 降序 对 比 的 结果 正好 相反 ， 所 以 它们 会 产生 元 系 排 
列 方式 正好 相反 的 两 种 排序 结果 。 


:图 21-7 展 示 了 SORT 命 令 在 对 numbers 列 表 执 行 升序 排序 时 所 创建 的 


数组 。 


二 
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| :图 21-8 展 示 了 SORT 命 令 在 对 numbers 列 表 执 行 降序 排序 时 所 创建 的 
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以 numbers 列 表 为 例 : 














执行 升序 排序 的 数组 
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图 21-8 执行 降序 排序 的 数组 


其 他 SORT <Key> “ DESC 命 令 的 执行 步骤 也 和 这 里 给 出 的 步骤 类 
似 。 


21.4 BY 选项 的 实现 


在 默认 情况 下 ，SORT 命 令 使 用 被 排序 键 包含 的 元 系 作 为 排序 的 权 
重 ， 元 系 本 先决 定 了 元 素 在 排序 之 后 所 处 的 位 置 。 


例如 ， 在 下 面 这 个 例子 里 面 ， 排 友 fruits 集 合 所 使 用 的 权重 就 


是 "apple"、"banana"、"cherry" 三 个 元 素 











redis> SADD fruits "apple" "banana" "cherry" 
(integer) 3 

redis> SORT fruits ALPHA 

1) "apple" 


另 一 方面 ， 通 过 使 用 BY 选项 ，SORI 命 令 可 以 指定 某 些 字符 串 键 ， 
或 者 某 个 哈 希 键 所 包含 的 某 些 域 〈field) 来 作为 元 素 的 权重 ， 对 一 个 键 
进行 排序 。 


例如 ， 以 下 这 个 例子 就 使 用 苹果 、 香 巷 、 樱 桃 三 种 水 果 的 价钱 ， 对 
集合 键 fruits 进 行 了 排序 : 


redis> MSET apple-price 8 banana-price 5.5 cherry-price 7 
OK 

redis> SORT fruits BY *-price 

1) "banana" 

2) "cherry” 

3) "a 1 


服务 器 执行 SORT fruits BY*-price 命 令 的 详细 步骤 如 下 : 


1) 创建 一 个 redisSortObject 结 构 数组 ， 数 组 的 长 度 等 于 fruits 集 合 的 
大 由 


2) 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指向 fruits 集 合 的 各 个 元 
素 ， 如 图 219 所 示 。 


3) 壳 历数 组 ， 根 据 各 个 数组 项 的 obj 指 针 所 指向 的 集合 元 素 ， 以 及 
BY 选项 所 给 定 的 模式 *-price， 和 查找 相应 的 权重 键 : 


.对 于 "apple" 元 素 ， 碍 找 程序 返回 权重 键 "apple-price"。 





.对 于 "banana" 元 素 ， 碍 找 程序 返回 权重 键 "banana-price'" 。 
.对 于 "cherry" 元 素 ， 碍 找 程序 返回 权重 键 "cherry-price" 。 
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图 21-9 ”将 obj 指 针 指向 集合 的 各 个 元 素 


4) 将 各 个 权重 键 的 值 转换 成 一 个 double 类 


型 的 浮 点 数 ， 然 后 保存 


在 相应 数组 项 的 u.score 属 性 里 面 ， 如 图 21-10 所 示 : 
"apple" 元 素 的 权重 键 "apple-price" 的 值 转换 之 后 为 8.0。 
"banana" 元 素 的 权重 键 "banana-price" 的 值 转换 之 后 为 5.5。 
"cherry" 元 素 的 权重 键 "cherry-price" 的 值 转换 之 后 为 7.0。 
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图 21-10 ere 


5) 以 数组 项 u.score 属 性 的 值 为 权重 ， 对 数组 进行 排序 ， 得 到 一 个 
按 u.score 属 性 的 值 从 小 到 大 排序 的 数组 ， 如 图 21-11 所 示 : 


.权重 为 5.5 的 "banana" 元 素 位 于 数组 的 索引 0 位 置 上 。 
:权重 为 7.0 的 "cherry" 元 素 位 于 数组 的 索引 1 位 置 上 。 
.权重 为 8.0 的 "apple" 元 素 位 于 数组 的 索引 2 位 置 上 。 


.6) 过 历数 组 ， 依 次 将 数组 项 的 obj 指 针 所 指向 的 集合 元 素 返 回 给 客 


其 他 SORT<key>BY<pattern> 命 令 的 执行 步骤 也 和 这 里 给 出 的 步骤 
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图 21-11 根据 u.score 属 性 进行 排序 之 后 的 数组 





21.5 带 有 ALPHA 选 项 的 BY 选项 的 实现 


BY 选项 默认 假设 权重 键 保 存 的 值 为 数字 值 ， 如 果 权 重 键 保 存 的 是 
省 那么 就 需要 在 使 用 BY 选项 的 同时 ， 配 合 使 用 ALPHA 选 
项 。 

举 个 例子 ， 如 果 fruits 集 合 包含 的 三 种 水 果 都 有 一 个 相应 的 字符 串 编 


号 








redis> SADD fruits "apple" "banana" "cherry" 
(integer) 3 

redis> MSET apple-id "FRUIT-25" banana-id "FRUIT-79" cherry-id "FRUIT-13" 
OK 





那么 我 们 可 以 使 用 水 果 的 编写 为 权重 ， 对 fruits 集 合 进行 排 友 : 





redis> SORT fruits BY *-id ALPHA 
leherry 


3) "banana" 





服务 器 执行 SORT fruits BY*-id ALPHA 命 令 的 详细 步骤 如 下 : 


1) 创建 一 个 redisSortObject 结 构 数组 ， 数 组 的 长 度 等 于 fruits 集 合 的 


2) 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指向 fruits 集 合 的 各 个 元 
素 ， 如 图 21-12 所 示 。 
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图 21-12 ”将 obj 指 针 指 问 集合 的 各 个 元 素 


3) 裔 历数 组 ， 根 据 各 个 数组 项 的 obj 指 针 所 指向 的 集合 元 素 ， 以 及 
BY 选项 所 给 定 的 模式 *-id， 查 找 相 应 的 权重 键 : 


.对 于 "apple" 元 素 ， 碍 找 程序 返回 权重 键 "apple-id" 。 
.对 于 "banana" 元 素 ， 碍 找 程序 返回 权重 键 "banana-id'" 。 
.对 于 "cherry" 元 素 ， 碍 找 程序 返回 权重 键 "cherry-id" 。 


4) 将 各 个 数组 项 的 ucmpobj 指 针 分 别 指向 相应 的 权重 键 〈 一 个 字 
符 串 对 象 ) ， 如 图 21-13 所 示 。 


5) 以 各 个 数组 项 的 权重 键 的 值 为 权重 ， 对 数组 执行 字符 串 排 序 ， 
结果 如 图 12-14 所 示 : 


.权重 为 "FRUIT-13" 的 "cherry" 元 素 位 于 数组 的 索引 0 位 置 上 。 
.权重 为 "FRUIT-25" 的 "apple" 元 素 位 于 数组 的 索引 1 位 置 上 。 
.权重 为 "FRUIT-79" 的 "banana" 元 素 位 于 数组 的 索引 2 位 置 上 。 


6) 过 历数 组 ， 依 次 将 数组 项 的 obj 指 针 所 指 回 的 集合 元 素 返 回 给 客 
户 端 。 
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图 21-13 ”将 u.cmpobj 指 针 指 向 权重 键 
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图 21-14” 按 u.cmpobj 所 指向 的 字符 串 对 象 进行 排序 之 后 的 数组 


其 他 SORT <key> BY <pattern>ALPHA 命 令 的 执行 步骤 也 和 这 里 给 


出 的 步 又 类似 。 


21.6 LIMIT 选 项 的 实现 
在 默认 情况 下 ，SORT 命 令 总 会 将 排序 后 的 所 有 元 素 都 返回 给 客户 


和 


i: 





ts SADD alphabet a b cdef 
(integer) 6 

# 

集合 中 的 元 素 是 乱 序 存放 的 

redi S> SMEMBERS alphabet 











# 
对 集合 进行 排序 ， 并 返回 所 有 排序 后 的 元 素 
e 1 SORT alphabet ALPHA 











但 是 ， 通 过 LIMIT 选 项 ， 我 们 可 以 让 SORT 命 令 只 返回 其 中 一 部 分 
己 排序 的 元 素 。 


LIMIT 选 项 的 格式 为 LIMIT<offset><count>: 
offset 参数 表示 要 跳 过 的 已 排序 元 素数 量 。 


count 参数 表示 跳 过 给 定数 量 的 已 排序 元 素 之 后 ， 要 返回 的 已 排序 
元 素数 量 。 


举 个 例子 ， 人 接着 跳 过 0 个 已 
排序 元 素 ， 然 后 返回 4 个 已 排序 元 素 : 


























redis> SORT alphabet ALPHA LIMIT 9 4 
1) "a" 








与 此 类 似 ， ee 接着 跳 过 2 个 已 
排序 元 素 ， 然 后 返回 3 个 已 排序 元 素 : 








redis> SORT alphabet ALPHA LIMIT 2 3 





服务 器 执行 SORT alphabet ALPHA LIMIT 0 4 命令 的 详细 步骤 如 


1) 创建 一 个 redisSortObject 结 构 数 组 ， 数 组 的 长 度 等 于 alphabet 集 合 
的 大 小 。 


2) 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指向 alphabet 集 合 的 各 个 
元 素 ， 如 图 21-15 所 示 。 


3) 根据 obj 指 针 所 指 同 的 集合 元 素 ， 对 数组 进行 字符 串 排 序 ， 排 序 
后 的 数组 如 图 21-16 所 示 。 


4) 根据 选项 LIMIT 0 4， 将 指针 移动 到 数组 的 索引 0 上 面 ， 然 后 依 
次 访问 array[0]、array[1]、array[2]、array[3] 这 4 个 数组 项 ， 并 将 数组 项 
的 obj 指 针 所 指 癌 的 元 素 "a"、"b"、"c"、"d" 返 回 给 客户 端 。 


服务 器 执行 SORT alphabet ALPHA LIMIT 2 3 命令 时 的 第 一 至 第 三 
步 都 和 执行 SORT alphabet ALPHA LIMIT 0 4 命令 时 的 步骤 一 样 ， 只 是 
第 四 步 有 所 不 同 ， 上 面 的 第 4 步 如 下 : 


4) 根据 选项 LIMIT 2 3， 将 指针 移动 到 数组 的 索引 2 上 面 ， 然 后 依 
次 访问 array[2]、array[3]、array[4] 这 3 个 数组 项 ， 并 将 数组 项 的 obj 指 针 
所 指向 的 元 素 "c"、"d"、"e" 返 回 给 客户 端 。 


SORT 命 令 在 执行 其 他 带 有 LIMIT 选 项 的 排序 操作 时 ， 执 行 的 步 双 
也 和 这 里 给 出 的 步 又 类 似 。 
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图 21-15 ”将 obj 指 针 指向 集合 的 各 个 元 素 
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图 21-16 排序 后 的 数组 


21.7 ”GET 选项 的 实现 


在 默认 情况 下 ，SORT 命 令 在 对 键 进行 排序 之 后 ， 总 是 返回 被 排序 
键 本 里 所 包含 的 元 素 。 


比如 说 ， 在 以 下 这 个 对 students 集 合 进 行 排 序 的 例子 中 ，SORT 命 令 
返回 的 就 是 被 排序 之 后 的 students 集 合 的 元 素 : 








redis> SADD students "peter" "jack" "tom" 
(integer) 3 

redis> SORT students ALPHA 

1) "jack" 

2) "peter" 

3) "tom" 





但 是 ， 通 过 使 用 GET 选 项 ， 我 们 可 以 让 SORT 命 令 在 对 键 进行 排序 
之 后 ,根据 被 排序 的 元 素 ， 以 及 GET 计 项 所 指定 的 模式 查找 并 返回 革 
些 键 的 值 。 


比如 说 ， 在 以 下 这 个 例子 中 ) SORT 命 令 首先 对 students 集 合 进行 排 
序 ， 然 后 根据 排序 结果 中 的 元 素 (学 生 的 伯 称 ) ， 查 找 并 反 加 这 此 学生 





# 
设置 peter 
、 jack 


名 
redis> SET peter-name "Peter White" 
redis> SET jack-name "Jack Snow" 
redis> SET tom-name "Tom Smith" 
OK 


# SORT 

命令 首先 对 Students 

集合 进行 排序 ， 得 到 排序 结果 
# 1) "jack" 

# 2) "peter" 

# 3) "tom" 


# 

然后 根据 这 些 结果 ， 获 取 并 返回 键 jack -name 
、peter-name 

和 tom-name 





redis> SORT students ALPHA GET *-name 
1) "Jack Snow" 

2) "Peter White" 

3) "Tom Smith" 





服务 器 执行 SORT students ALPHA GET*-name 命 令 的 详细 步骤 如 


1) 创建 一 个 redisSortObject 结 构 数 组 ， 数 组 的 长 度 等 于 students 集 合 
的 大 小 。 


2) 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指向 students 集 合 的 各 个 
元 素 ， 如 图 21-17 所 示 。 


3) 根据 obj 指 针 所 指 同 的 集合 元 素 ， 对 数组 进行 字符 串 排 序 ， 排 序 
后 的 数组 如 图 21-18 所 示 : 


航 排 序 到 数组 索引 0 位 置 的 是 "jack" 元素 。 
“被 排序 到 数组 索引 1 位 置 的 是 "peter" 元 系 。 
-被 排序 到 数组 索引 2 位 置 的 是 "tom" 元 素 。 


4) 避 历 数组 ， 根 据 数 组 项 obj 指 针 所 指向 的 集合 元 素 ， 以 及 GET 选 
项 所 给 定 的 *-name 模 式 ， 碍 找 相 应 的 键 : 


:对 于 "jack" 元 素 和 *-name 模 式 ， 查 找 程 序 返 回 键 jack-name。 
.对 于 "peter" 元 素 和 *-name 模 式 ， 碍 找 程 序 返回 键 peter-name。 
.对 于 "tom" 元 素 和 *-name 模 式 ， 碍 找 程序 返回 键 rom-name。 


Wi 
arrav[0] obj 5ttlngqop]ject stringObject 
iissortob - 记 DENe "tom" 
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图 21-17 ”排序 之 前 的 数组 
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students 集 合 

redisSortObject 
StringObject StringObject StringObject 

array[1] ] "peter" "jack" Wtom" 


redissortbjectly | 一 一- 一 一 一 | 
array[2] 


redisSortObject 向 
图 21-18 ”排序 之 后 的 数组 
5) 遍历 查找 程序 返回 的 三 个 键 ， 并 向 客户 端 返回 它们 的 值 : 
首先 返回 的 是 jack-name 键 的 值 "Jack Snow"。 


:然后 返回 的 是 peter-name 键 的 值 "Peter White"。 




























:最 后 返回 的 是 tom-name 键 的 值 "Tom Smith"。 


因为 一 个 SORT 命 令 可 以 禹 有 多 个 GET 选 项 ， 所 以 随 着 GET 选 项 的 
增多 ， 命 令 要 执行 的 查找 操作 也 会 增多 。 


举 个 例子 ， 以 下 SORT 命 令 对 students 集 合 进行 了 排序 ， 并 通过 两 个 
GET 选 项 来 获取 被 排序 元 素 〈 一 个 学 生 ) 所 对 应 的 全 名 和 出 生日 期 ; 





# 














为 置 出 生日 期 
redis> SET peter-birth 1995-6-7 


redis> SET tom-birth 1995-8-16 
OK 
Le SET jack-birth 1995-5-24 


a 

排序 stud 

集合 ， 着 绪 胶 和 应 的 全 名 和 出 生日 其 

redis> SORT students ALPHA GET *-name GET *-birth 
1) 








2) "1995-5-24" 
3) "Peter White" 
4 


5) "Tom Smith" 
6) "1995-8-16" 





服务 器 执行 SORT students ALPHA GET*-name GET*-birth 命 令 的 前 


三 个 步 怠 ， 和 执行 SORT students ALPHA GET*-name 命 令 时 的 前 三 个 步 
又 相同 ， 但 从 第 四 步 开 始 有 所 区 别 : 


4) 明 历 数组 ， 根 据 数 组 项 obj 指 针 所 指 同 的 集合 元 素 ， 以 及 两 个 
GET 选 项 所 给 定 的 *-name 模 式 和 *-birth 模 式 ， 碍 找 相 应 的 键 : 


.对 于 "jack" 元 素 和 *-name 模 式 ， 查 找 程序 返回 jack-name 键 。 

.对 于 "jack" 元 素 和 *-birth 模 式 ， 碍 找 程序 返回 jack-birth 键 。 

.对 于 "peter" 元 素 和 *-name 模 式 ， 碍 找 程序 返回 peter-name 键 。 

.对 于 "peter" 元 素 和 *-birth 模 式 ， 碍 找 程序 返回 peter-birth 键 。 

.对 于 "tom" 元 素 和 *-name 模 式 ， 碍 找 程 序 返 回 tom-name 键 。 

对 于 "tom" 元 素 和 *-birth 模 式 ， 碍 找 程序 返回 tom-birth 键 。 
) 遍历 查找 程序 返回 的 六 个 键 ， 并 向 客户 端 返回 它们 的 值 : 

:首先 返回 jack-name 键 的 值 "Jack Snow"。 

其 次 返回 jack-birth 键 的 值 "1995-5-24"。 

-之 后 返回 peter-name 键 的 值 "Peter White'" 。 

.再 之 后 返回 peter-birth 键 的 值 "1995-6-7"。 

.然后 返回 tom-name 键 的 值 "Tom Smith"。 

最 后 返回 tom-birth 键 的 值 "1995-8-16"。 


SORT 命 令 在 执行 其 他 带 有 GET 选 项 的 排序 操作 时 ， 执 行 的 步骤 也 
和 这 里 给 出 的 步骤 类似 。 


21.8 STORE 选项 的 实现 


ne SORT 命 令 只 同 客 户 端 返回 排序 结果 ， 而 不 保存 排 
也 簿 术 : 





redis> SADD students "peter" "jack" "tom" 
(integer) 3 
人 en students ALPHA 


LE) a 
2 
3) "to 





但 是 ， 通 过 使 用 STORE 选项 ， 我 们 可 以 将 排序 结果 保存 在 指定 的 键 
里 面 ， 并 在 有 需要 时 重用 这 个 排序 结果 : 





redis> SORT students ALPHA STORE sorted_ students 
(integer) 3 
redis> LRANGE sorted_students 0-1 

nr 





服务 器 执行 SORT students ALPHA STORE sorted_students 命 令 的 详 
细 步 又 如 下 : 


1) 创建 一 个 redisSortObject 结 构 数组 ， 数 组 的 长 度 等 于 students 集 合 
的 大 小 。 


a 遍历 数组 ， 将 各 个 数组 项 的 obj 指 针 分 别 指向 students 集 合 的 各 个 
元 来 


3) 根据 obj 指 针 所 指 癌 的 集合 元 素 ， 对 数组 进行 字符 串 排序 ， 排 序 
后 的 数组 如 图 21-19 所 示 : 


被 排序 到 数组 索引 0 位 置 的 是 "jack" 元 素 。 
被 排序 到 数组 索引 1 位 置 的 是 "peter" 元 素 。 
被 排序 到 数组 索引 2 位 置 的 是 "tom" 元 素 。 
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图 21-19 ”排序 之 后 的 数组 


4) 检查 sorted_students 键 是 否 存在 ， 如 果 存 在 的 话 ， 那 么 删除 该 
键 。 


5) 设置 sorted_students 为 空白 的 列表 键 。 

6) 遍历 数组 ， 将 排序 后 的 三 个 元 素 "jack"、"peter" 和 "tom" 依 次 推 入 
sorted_students 列 表 的 末尾 ， 相 当 于 执行 命令 RPUSH 
sorted_students"jack"、"peter"、"tom"。 

7) 遍历 数组 ， 向 客户 端 返回 "jack"、"peter"、"tom" 三 个 元 素 。 


SORT 命 令 在 执行 其 他 带 有 STORE 选项 的 排序 操作 时 ， 执 行 的 步 又 
也 和 这 里 给 出 的 步 又 类 似 。 


21.9 多 个 选项 的 执行 顺序 


前 面 的 章节 介绍 了 SORT 命 令 以 及 相关 选项 的 实现 原理 ， 为 了 简单 
起 见 ， 在 介绍 单个 选项 的 实现 原理 时 ， 文 章 通 常 只 在 代码 示例 中 使 用 被 
介绍 的 那个 选项 ， 但 在 SORT 命 令 的 实际 使 用 中 ， 人 情况 并 不 总 是 那么 简 
单 的 ， 一 个 SORT 命 令 请 求 通 第 会 用 到 多 个 选项 ， 而 这 些 选 项 的 执行 顺 
序 是 有 先后 之 分 的 。 


21.9.1 选项 的 执行 顺序 
如 果 按 照 选项 来 划分 的 话 ， 一 个 SORT 命 令 的 执行 过 程 可 以 分 为 以 
下 四 步 : 


1) 排序 : 在 这 一 步 ， 命 令 会 使 用 ALPHA、ASC 或 DESC、BY 这 几 
个 选项 ， 对 输入 键 进行 排序 ， 并 得 到 一 个 排序 结果 集 。 

2) 限制 排序 结果 集 的 长 度 : 在 这 一 步 ， 命 令 会 使 用 LIMIT 选 项 ， 
对 排序 结果 集 的 长 度 进行 限制 ， 只 有 LIMIT 选 项 指定 的 那 部 分 元 素 会 被 
保留 在 排序 结果 集中 。 

3) 获取 外 部 键 : 在 这 一 步 ， 命 令 会 使 用 GET 选 项 ， 根 据 排序 结果 
集中 的 元 素 ， 以 及 GET 选 项 指定 的 模式 ， 查 找 并 获取 指定 键 的 值 ， 并 用 
这 些 值 来 作为 新 的 排序 结果 集 。 


4) 保存 排序 结果 集 : 在 这 一 步 ， 命 令 会 使 用 STORE 选项 ， 将 排序 
结 末 集 保存 到 指定 的 键 上 面 去 。 


5) 回 客 户 端 返回 排序 结果 集 : 在 最 后 这 一 步 ， 命 令 人 所 历 排 序 结 果 
集 ， 并 依次 加 客户 端 返 回 排序 结果 集中 的 元 素 。 


在 以 上 这 些 步 又 中 ， 后 一 个 步骤 必须 在 前 一 个 步骤 完成 之 后 进行 。 


举 个 例子 ， 如 果 客 户 端 向 服务 器 发 送 以 下 命令 : 








SORT <key> ALPHA DESC BY <by-pattern> LIMIT <offset> <count> GET <get-pattern> STORE <store_key> 








SORT <key> ALPHA DESC BY <by-pattern> 





接着 执行 : 





LIMIT <offset> <count> 





然后 执行 : 





GET <get-pattern> 





之 后 执行 : 





STORE <store_key> 





最 后 ， 命 令 过 历 排 序 结 果 集 ， 将 结果 集中 的 元 素 依次 返回 给 客户 


21.9.2 ”选项 的 摆 放 顺序 


另外 要 提醒 的 一 点 是 ， 调 用 SORT 命 令 时 ， 除 了 GET 选 项 之 外 ， 改 
变 选 项 的 摆 放 顺序 并 不 会 影响 SORT 命 令 执行 这 些 选 项 的 顺序 。 


例如 ， 命 令 : 





SORT <key> ALPHA DESC BY <by-pattern> LIMIT <offset> <count> GET <get-pattern> STORE <store_key> 





和 命令 : 





SORT <key> LIMIT <offset> <count> BY <by-pattern> ALPHA GET <get-pattern> STORE <Sstore_key> DESC 





SN 


及 他们 : 





SORT <key> STORE <store_key> DESC BY <by-pattern> GET <get-pattern> ALPHA LIMIT <offset> <count> 





都 产生 完全 相同 的 排序 数据 集 。 

不 过 ， 如 果 命 令 包 含 了 多 个 GET 选 项 ， 那 么 在 调整 选项 的 位 置 时 ， 
80 5 
可 人 小 妆 。 


例如 ， 命 令 : 





SORT <key> GET <pattern-a> GET <pattern-b> STORE <Sstore_key> 





和 命令 : 





SORT <key> STORE <store_key> GET <pattern-a> GET <pattern-b> 





六 生 的 排序 结果 集 是 完全 一 样 的 ， 但 各 果 将 两 个 GET 选 项 的 顺序 
= 下 : 





SORT <key> STORE <store_key> GET <pattern-b> GET <pattern-a> 





那么 这 个 命令 产生 的 排序 结果 集束 会 和 前 面 两 个 命令 产生 的 排序 结 
朵 集 不 同 。 


因此 在 调整 SORT 命 令 各 个 选项 的 摆 放 顺序 时 ， 必 须 小 心 处 理 GET 
选项 。 


21.10 ”重点 回顾 


“SORT 命 令 通 过 将 被 排序 键 包含 的 元 系 载 入 到 数组 里 面 ， 然 后 对 数 
组 进行 排序 来 完成 对 键 进行 排序 的 工作 。 


在 默认 情况 下 ，SORI 命 令 假设 被 排序 键 包含 的 都 是 数字 值 ， 并 且 
以 数字 值 的 方式 来 进行 排序 。 


.如 果 SORTI 命 令 使 用 了 ALPHA 选 项 ， 那 么 SORT 命 令 假设 被 排序 键 
包含 的 都 是 字符 串 值 ， 并 且 以 字符 串 的 方式 来 进行 排序 。 


SORT 命令 的 排序 操作 由 快速 排序 算法 实现 。 


SORT 命令 会 根据 用 户 是 否 使 用 了 DESC 选 项 来 决定 是 使 用 升序 对 
比 还 是 降序 对 比 来 比较 被 排序 的 元 素 ， 升 序 对 比 会 产生 升序 排序 结果 ， 
被 排序 的 元 际 按 值 的 大 小 从 小 到 大 排列 ， 降 序 对 比 会 产生 降序 排序 结 
果 ， 被 排序 的 元 素 按 值 的 大 小 从 大 到 小 排列 。 


` 当 SORT 命 令 使 用 了 BY 选项 时 ， 命 令 使 用 其 他 键 的 值 作为 权重 来 
进行 排序 操作 。 


` 当 SORT 命 令 使 用 了 LIMIT 选 项 时 ， 命 令 只 保留 排 友 结果 集中 
LIMIT 选 项 指定 的 元 素 。 


` 当 SORT 命 令 使 用 了 了 GET 选项 时 ， 命 令 会 根据 排序 结果 集中 的 元 
I 查找 并 返回 其 他 键 的 值 ， 而 不 是 返回 被 
字 的 元 素 。 


. 当 SORT 命 令 使 用 了 STORE 选项 时 ， 命 令 会 将 排序 结果 集 保 存在 指 
定 的 键 里 面 。 

` 当 SORT 命 令 同 时 使 用 多 个 选项 时 ， 命 令 先 执行 排序 操作 (可 用 的 
选项 为 ALPHA、ASC 或 DESC、BY) ， 然 后 执行 LIMIT 选 项 ， 之 后 执行 
GET 选 项 ， 再 之 后 执行 STORE 选项 ， 最 后 才 将 排序 结果 集 返 回 给 客户 


端 。 


除了 GET 选 项 之 外 ， 调 整 选项 的 摆 放 位 置 不 会 影响 SORT 命 令 的 排 


第 22 章 ”二进制 位 数组 


Redis 提 供 了 SETBIT、GETBIT、BITCOUNT、BITOP 四 个 命令 用 于 
处 理 二 进 制 位 数组 〈bit array， 又 称 “ 位 数组 >) 。 


其 中 ，SETBIT 命 令 用 于 为 位 数组 指定 偏 移 量 上 的 二 进 制 位 设置 
值 ， 位 数组 的 偏 移 量 从 0 开始 计数 ， 而 二 进 制 位 的 值 则 可 以 是 0 或 者 1: 





redis> SETBIT bit 9 1 # 0000 0001 
(integer) 0 


redis> SETBIT bit 3 1 # 0000 1001 
(integer) 0 
redis> SETBIT bit 0 0 # 0000 1000 


(integer) 1 





而 GETBIT 命 令 则 用 于 获取 位 数组 指定 偏 移 量 上 的 三 进 制 位 的 值 : 





redis> GETBIT bit 9 # 0000 1000 
(integer) 0 
redis> GETBIT bit 3 # 0000 1000 
(integer) 1 





BITCOUNT 命 令 用 于 统计 位 数组 里 面 ， 值 为 1 的 二 进 制 位 的 数量 : 





redis> BITCOUNT bit # 0000 1000 
(integer) 1 

redis> SETBIT bit 9 1 # 0000 1001 
(integer) 0 

redis> BITCOUNT bit 

(integer) 2 

redis> SETBIT bit 1 1 # 90900909 1011 
(integer) 0 

redis> BITCOUNT bit 

(integer) 3 





最 后 ，BITOP 命 令 既 可 以 对 多 个 位 数组 进行 按 位 与 Cand) 、 按 位 
或 (or) 、 按 位 异 或 (xor) 运算 : 





redis> SETBIT x 3 1 # x = 0000 1011 
(integer) 0 
redis> SETBIT x 1 1 
(integer) 0 
redis> SETBIT x 0 1 
(integer) 0 
redis> SETBIT y 2 1 #7Yy = 0000 0110 
i 0 


redis> SETBIT y 1 1 

(integer) 0 

redis> SETBIT Z 2 1 #z = 0000 0101 
(integer) 0 

redis> SETBIT z 0 1 

(integer) 0 


redis> BITOP AND and-result xyz # 90900090 0000 
(integer) 1 

redis> BITOP OR or-result xyz # 0000 1111 
(integer) 1 

redis> BITOP XOR xor-result xyz # 0000 1000 
(integer) 1 








也 可 以 对 给 定 的 位 数组 进行 取 反 (not) 运算 : 





redis> SETBIT value 0 1 # 0000 1001 
(integer) 0 

redis> SETBIT value 3 1 

(integer) 0 

redis> BITOP NOT not-value value # 1111 0110 
(integer) 1 





本 章 将 对 Redis 表 示 位 数组 的 方法 进行 说 明 ， 并 介绍 GETBIT、 
SETBIT、BITCOUNT、BITOP 四 个 命令 的 实现 原理 。 


22.1 位 数组 的 表示 

Redis 使 用 字符 串 对 象 来 表示 位 数组 ， 因 为 字符 串 对 象 使 用 的 SDS 数 
据 结构 是 二 进 制 安全 的 ， 所 以 程序 可 以 直接 使 用 SDS 结 构 来 保存 位 数 
组 ， 并 使 用 SDS 结 构 的 操作 函数 来 处 理 位 数组 。 

图 22-1 展 示 了 用 SDS 表 示 的 ， 一 字 节 长 的 位 数组 : 


-TedisObject.type 的 值 为 REDIS_STRING， 表 示 这 是 一 个 字符 串 对 











sdshdr.len 的 值 为 1， 表 示 这 个 SDS 保 存 了 一 个 一 字 节 长 的 位 数组 。 
-buf 数组 中 的 buf[0] 字 节 保 存 了 一 字 节 长 的 位 数组 。 
:buf 数 组 中 的 buf[1] 字 节 保 存 了 SDS 程 序 自动 追加 到 值 的 末尾 的 空 字 


redisObject 


type 
REDIS STRING 













图 22-1 ”SDS 表示 的 位 数组 


因为 本 章 介 绍 的 操作 涉及 二 进 制 位 ， 为 了 清晰 地 展示 各 个 位 的 值 ， 
本 章 会 对 SDS 中 buf 数 组 的 展示 方式 进行 一 些 修改 ， 让 各 个 字 节 的 各 个 位 
都 可 以 清楚 地 展现 出 来 。 比 如 说 ， 本 章 会 将 前 面 图 22-1 展 示 的 SDS 值 改 
成 图 22-2 所 示 的 样子 。 
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buf [1] ( 空 字符 ) 
图 22-2 一 字 节 长 的 位 数组 的 SDS 表 示 


现在 ，buf 数 组 的 每 个 字 节 都 用 一 行 来 表示 ， 每 行 的 第 一 个 格子 
buf[j 表 示 这 是 buf 数 组 的 哪个 字 节 ， 而 buf 呈 之 后 的 八 个 格子 则 分 别 代 表 
这 一 委 记 中 的 人 


需要 注意 的 是 ，buf 数 组 保存 位 数组 的 顺序 和 我 们 平时 书写 位 数组 
的 顺序 是 完全 相反 的 ， 例 如 ， 在 图 22-2 的 buf[0] 字 节 中 ， 各 个 位 的 值 分 
别 是 1、0、1、1、0、0、1、0， 这 表示 buf[0] 字 节 保 存 的 位 数组 为 0100 
1101。 使 用 逆序 来 保存 位 数组 可 以 简化 SETBIT 命 令 的 实现 ， 详 细 的 情 
况 稍 后 在 介绍 SETBIT 命 令 的 实现 原理 时 会 说 到 。 


图 22-3 展 示 了 男 一 个 位 数组 示例 : 


"sdshdr.len 属 性 的 值 为 3， 表 示 这 个 SDS 保 存 了 一 个 三 字 节 长 的 位 数 
全 














.位 数组 由 buf 数 组 中 的 buf[0]、buf[1]、buf[2] 三 个 字 节 保存 ， 和 之 前 
说 明 的 一 样 ，buf 数 组 使 用 逆序 来 保存 位 数组 : 位 数组 1111 0000 1100 
0011 1010 0101 在 buf 数 组 中 会 被 保存 为 1010 0101 1100 0011 0000 1111。 
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buf [3] ( 空 字符 ) 
图 22-3 ”三 字 节 长 的 位 数组 的 SDS 表 示 


22.2 GETBIT 命 令 的 实现 


GETBIT 命 令 用 于 返回 位 数组 bitarray 在 offset 偏 移 量 上 的 二 进 制 位 的 
直 : 





GETBIT <bitarray> <offset> 


GETBIT 命 令 的 执行 过 程 如 下 : 








1) 计算 byte= “Loffset=8」 ，byte 值 记录 了 offset 偏 移 量 指定 的 二 进 
制 位 保存 在 位 数组 的 哪个 字 闻 。 


2) 计算 bit= (offset mod 8) +1，bit 值 记录 了 offset 偏 移 量 指定 的 二 
进 制 位 是 byte 字 节 的 第 几 个 二 进 制 位 。 


3) 根据 byte 值 和 bit 值 ， 在 位 数组 bitarray 中 定位 offset 偏 移 量 指定 的 
二 进 制 位 ， 并 返回 这 个 位 的 值 。 


举 个 例子 ， 对 于 图 22-2 所 示 的 位 数组 来 说 ， 命 令 : 








GETBIT <bitarray> 3 


将 执行 以 下 操作 : 


1) Be 的 值 为 0。 
2) (3 mod 8) +1 的 值 为 4。 


3) 定位 到 buf[0] 字 节 上 面 ， 然 后 取出 该 字 节 上 的 第 4 个 二 进 制 位 
《从 左 回 右 数 ) 的 值 。 


4) 同 客 户 痢 返回 二 进 制 位 的 值 1。 


命令 的 执行 过 程 如 图 22-4 所 示 。 


1) 定 位 到 buf [0] 字 节 


i EE O00000 


2) 退 回 第 4 个 二 进 制 位 的 介 buf [1] ( 空 字符 ) 


1) 定位 到 buf [1] 字 他 


2) 退 





图 22-4 查找 并 返回 offset 为 3 的 二 进 制 位 的 过 程 
再 举 一 个 例子 ， 对 于 图 22-3 所 示 的 位 数组 来 说 ， 命 令 : 


GETBIT <bitarray> 10 


将 执行 以 下 操作 : 


1) ea 的 值 为 1。 
2) (10 mod 8) +1 的 值 为 3。 
3) 定位 到 buf[1] 字 节 上 和 面 ， 然 后 取出 该 字 节 上 的 第 3 个 二 进 制 位 的 


4) 癌 客 户 端 返回 二 进 制 位 的 值 0。 
命令 的 执行 过 程 如 图 22-5 所 示 。 


回 第 3 个 二 进 制 位 的 值 








图 22-5 ”查找 并 返回 offset 为 10 的 二 进 制 位 的 过 程 


因为 GETBIT 命 令 执行 的 所 有 操作 都 可 以 在 常数 时 间 内 完成 ， 所 以 
该 命令 的 算法 复杂 上 度 为 DO (1) 。 


22.3 SETBIT 命 令 的 实现 


SETBIT 用 于 将 位 数组 bitarray 在 offset 偏 移 量 上 的 三 进 制 位 的 值 设置 
为 value， 并 同 客 户 问 返回 二 进 制 位 被 设置 之 前 的 旧 值 : 





SETBIT <bitarray> <offset> <value> 


以 下 是 SETBIT 命 令 的 执行 过 程 : 


1) 计算 len= “Loffset=8」 +1，len 值 记录 了 保存 offset 偏 移 量 指定 的 
二 进 制 位 至 少 需 要 多 少 字 节 。 


2) 检查 bitarray 键 保存 的 位 数组 〈 也 即 是 SDS) 的 长 度 是 否 小 于 
len， 如 有 果 有 是 的 话 ， 将 SDS 的 长 度 扩展 为 lan 字 节 ， 并 将 所 有 新 扩展 空间 
的 二 进 制 位 的 值 设 置 为 0。 














3) 计算 byte= “上 offset:8」 ，byte 值 记录 了 offset 偏 移 量 指定 的 二 进 
制 位 保存 在 位 数组 的 哪个 字 市 。 


4) 计算 bit= (offset mod 8) +1，bit 值 记录 了 offset 偏 移 量 指定 的 二 
进 制 位 是 byte 字 节 的 第 几 个 二 进 制 位 。 

5) 根据 byte 值 和 bit 值 ， 在 bitarray 键 保存 的 位 数组 中 定位 offset 偏 移 
量 指定 的 二 进 制 位 ， 首 先 将 指定 二 进 制 位 现在 值 保存 在 oldvalue 变 量 ， 
然后 将 新 值 value 设 置 为 这 个 二 进 制 位 的 值 。 

6) 回 客 户 端 返回 oldvalue 变 量 的 值 。 


因为 SETBIT 命 令 执 行 的 所 有 操作 都 可 以 在 种 数 时 间 内 完成 ， 所 以 
该 命令 的 时 间 复 杂 度 为 0 (1) 。 


22.3.1 SETBIT 命 令 的 执行 示例 








让 我 们 通过 观察 一 些 SETBIT 命 令 的 执行 例子 来 熟悉 SETBIT 命 令 的 


首先 ， 如 果 我 们 对 图 22-2 所 示 的 位 数组 执行 命令 : 


那么 服务 器 将 执行 以 下 操作 : 





1) 计算 a +1， 得 出 值 1， 这 表示 保存 俩 移 量 为 1 的 二 进 制 位 
至 少 需 要 1 字 市 长 位 数组 。 

2) 检查 位 数组 的 长 度 ， 发 现 SDS 的 长 度 不 小 于 1 字 节 ， 无 须 执行 扩 
展 操作 。 








3) 计算 Be ， 得 出 值 0， 说 明 偏 移 量 为 1 的 二 进 制 位 位 于 buf[0] 
字 节 。 





4) 计算 〈1 mod 8) +1， 得 出 值 2， 说 明 仿 移 量 为 1 的 二 进 制 位 是 
buf[0] 字 节 的 第 2 个 二 进 制 位 。 


5) 定位 到 buf[0] 字 市 的 第 2 个 二 进 制 位 上 面 ， 将 三 进 制 位 现在 的 值 0 
保存 到 oldvalue 变 量 ， 然 后 将 二 进 制 位 的 值 设置 为 1。 


6) 问 客 户 端 返 回 oldvalue 变 量 的 值 0。 


1) 定位 到 buf [0] 字 节 2) 定位 到 buf [0] 字 节 的 第 2 个 二 进 制 位 
将 位 现在 的 值 0 保存 到 oldvalue 变 量 
\ 然后 将 位 的 什 设 置 为 


fo oT To TT 


buf [1] ( 空 字符 ) 
图 22-6 SETBIT 命 令 的 执行 过 程 








图 22-6 展 示 了 SETBIT 命 令 的 执行 过 程 ， 而 图 22-7 则 展示 了 SETBIT 
命令 执行 之 后 ， 位 数组 的 样子 。 


eo TT To To Ti To 


buf [1] ( 空 字 符 ) 


图 22-7 ”SETBIT 命 令 执 行 之 后 的 位 数组 





22.3.2” 带 扩展 操作 的 SETBIT 命 令 示 例 


前 面 展 示 的 SETBIT 例 子 无 须 对 位 数组 进行 扩展 ， 现 在 ， 让 我 们 来 
看 一 个 需要 对 位 数组 进行 扩展 的 例子 。 


假设 我 们 对 图 22-2 所 示 的 位 数组 执行 命令 : 


SETBIT <bitarray> 12 1 





那么 服务 器 将 执行 以 下 操作 : 





1) 计算 ed +1， 得 出 值 2， 这 表示 保存 侦 移 量 为 12 的 二 进 制 
位 至 少 需 要 2 字 市 长 的 位 数组 。 


2) 对 位 数组 的 长 度 进行 检查 ， 得 知 位 数组 现在 的 长 度 为 1 字 节 ， 这 
比 执 行 命令 所 需 的 最 小 长 度 2 字 市 要 小 ， 所 以 程序 会 要 求 将 位 数组 的 长 
度 扩 展 为 2 字 三 。 不 过 ， 尽 管 程序 只 要 求 2 字 市 长 的 位 数组 ， 但 SDS 的 空 
间 预 分 配 策略 会 为 SDS 额 外 多 分 配 2 字 节 的 未 使 用 空间 ， 再 加 上 为 保存 
ee 1 字 节 ， 扩 展 之 后 buf 数 组 的 实际 长 度 为 5 字 节 ， 如 

22-8 甩 不 。 
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buf [2] ( 空 字符 ) 
buf [3] (未 使 用 ) 
buf [4] (未 使 用 ) 
图 22-8 ”扩展 空间 之 后 的 位 数组 









3) 计算 a ， 得 出 值 1， 说 明 偏 移 量 为 12 的 二 进 制 位 位 于 
buf[1] 字 节 中 。 


4) 计算 (12 mod 8) +1， 得 出 值 5， 说 明 偏 移 量 为 12 的 二 进 制 位 是 
buf[1] 字 节 的 第 5 个 三 进 制 位 。 


5) 定位 到 buf[f1] 字 市 的 第 5 个 二 进 制 位 ， 将 三 进 制 位 现在 的 值 0 保存 
到 oldvalue 变 量 ， 然 后 将 二 进 制 位 的 值 设置 为 1。 


6) 问 客 户 端 返 回 oldvalue 变 量 的 值 0。 


图 22-9 展 示 了 SETBIT 命 令 定位 并 设置 指定 二 进 制 位 的 过 程 ， 而 图 
22-10 则 展示 了 SETBIT 命 令 执行 之 后 ， 位 数组 的 样子 。 





1) 定位 到 buf [1] 字 节 ”2) 定位 到 buf [1] 字 市 的 第 5 个 二 进 制 位 
| 首先 将 位 现在 的 值 0 保存 到 oldvalue 
| 变量 然后 将 位 的 值 设 置 为 1 


加 区 加 回回 四 四 区 加 加 加 
Dp mle me eile 


buf [2] ( 空 字符 ) 





buf [3] (未 使 用 ) 
buf [4] (未 使 用 


图 22-9 SETBIT 命 令 的 执行 过 程 
perio of TT oT 
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buf [2]( 空 字符 ) 





buf [3] (未 使 用 ) 
) 


] ( 
buf [4] (未 使 用 


图 22-10 ”执行 SETBIT 命 令 之 后 的 位 数组 


注意 ， 因 为 buf 数 组 使 用 逆序 来 保存 位 数组 ， 所 以 当 程 序 对 buf 数 组 





进行 扩展 之 后 ， 写 入 操作 可 以 直接 在 新 扩展 的 二 进 制 位 中 完成 ， 而 不 必 
改动 位 数组 原来 已 有 的 二 进 制 位 。 


相反 地 ， 如 果 buf 数 组 使 用 和 书写 位 数组 时 一 样 的 顺序 来 保存 位 数 
组 ， 那 么 在 每 次 扩展 buf 数 组 之 后 ， 程 序 都 需要 将 位 数组 己 有 的 位 进行 
移动 ， 然 后 才能 执行 写 入 操作 ， 这 比 SETBIT 命 令 目 前 的 实现 方式 要 复 
杂 ， 并 且 移 位 带 来 的 CPU 时 间 消 耗 也 会 影响 命令 的 执行 速度 。 


图 22-11 至 图 22-14 模 拟 了 程序 在 buf 数 组 按 书写 顺序 保存 位 数组 的 情 





况 下 ， 对 位 数组 0100 1101 执 行 命令 SETBIT <bitarray> 12 1， 将 值 改 为 
0001 0000 0100 1101 的 整个 过 程 。 


回回 回回 回回 回回 


buf [1] (〈 空 字符 ) 

图 22-11 按 书 写 顺序 保存 的 位 数组 0100 1101 
oro oi To To 
bat olololololololo 

buf [2] (〈 空 字符 ) 
ET 
buf[4] (未 使 用 ) 
图 22-12 ”扩展 之 后 的 位 数组 
昌 mop, [pntlolo|o|o|ololololo 
将 字 忆 puf [0] 的 所 有 二 进 制 位 
移动 到 字 节 buf [1] otto dofodidilofl: 
buf [2] ( 空 字符 ) 


buf [3] (未 使 用 ) 














] 
puf [4] (未 使 用 ) 


图 22-13 ”移动 已 有 的 三 进 制 位 


将 偏 移 量 为 12 的 二 进 制 位 -- 


的 值 设置 为] [eolo[o[o[i[ololo[o 
le 


buf [3] -一 
buf [4] (未 使 用 ) 
图 22-14 ”设置 指定 二 进 制 位 的 值 





22.4 BITCOUNT 命 令 的 实现 
BITCOUNT 命 令 用 于 统计 给 定位 数组 中 ， 值 为 1 的 二 进 制 位 的 数 


举 个 例子 ， 对 于 图 22-15 所 示 的 位 数组 来 说 ，BITCOUNT 命 令 将 返 
回 4。 


而 对 于 图 22-16 所 示 的 位 数组 来 说 ，BITCOUNT 命 令 将 返回 12。 


DE 





buf [1] ( 空 字符 ) 


图 22-15 “BITCOUNT 命 令 示 例 一 
EDI 国 回国 加 回回 回回 
still 


wr lo lo or | 
buf [3] ( 空 字符 ) 


图 22-16 ”BITCOUNT 命 令 示例 二 


BITCOUNT 命 令 要 做 的 工作 初 看 上 去 并 不 复杂 ， 但 实际 上 要 高 效 地 








实现 这 个 命令 并 不 容易 ， 需 要 用 到 一 些 精巧 的 算法 。 


接 下 来 的 几 个 小 节 将 对 BITCOUNT 命 令 可 能 使 用 的 几 种 算法 进行 介 
绍 ， 并 最 终 给 出 BITCOUNT 命 令 的 具体 实现 原 理 。 


22.4.1 ”二进制 位 统计 算法 (1) : 过 历 算 法 


实现 BITCOUNT 命 令 最 简单 直接 的 方法 ， 就 是 遍历 位 数组 中 的 每 个 
二 进 制 位 ， 并 在 遇 到 值 为 1 的 二 进 制 位 时 ， 将 计数 器 的 值 增 一 。 

图 22-17 展 示 了 程序 使 用 遍历 算法 ， 对 一 个 8 位 长 的 位 数组 进行 遍历 
并 计数 的 整个 过 程 。 
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por To TT oT To 





buf [1] ( 空 字符 ) 
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buf [1] (至 字符 ) 





counter=4 


加 国 回国 加 回回 加 可 


buf [1] (〈 空 字符 ) 





counter=4 
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buf [1] ( 空 字符 ) 
图 22-17 遍历 算法 的 运行 过 程 
遍历 算法 虽然 实现 起 来 简单 ， 但 效率 非常 低 ， 因 为 这 个 算法 在 每 次 





循环 中 只 能 检查 一 个 二 进 制 位 的 值 是 否 为 1， 所 以 检查 操作 执行 的 次 数 
将 与 位 数组 包含 的 二 进 制 位 的 数量 成 正比 。 


例如 ， 假 设 要 检查 的 位 数组 的 长 度 为 100MB， 那 么 按 
1MB=1000000Byte=8000000bit 来 计算 ， 使 用 遍历 算法 检查 长 度 为 100MB 
的 位 数组 将 需要 执行 检查 操作 八 亿 次 《100*8000000) ! 而 对 于 长 度 为 
500MB 的 位 数组 来 说 ， 遍 历 算法 将 需要 执行 检查 操作 四 十 亿 次 ! 





尽管 遍历 算法 对 单个 二 进 制 位 的 检查 可 以 在 很 短 的 时 间 内 完成 ， 但 
重复 执行 上 亿 次 这 种 检查 肯定 不 是 一 个 高 效 程序 应 有 的 表现 ， 为 了 让 
BITCOUNT 命 令 的 实现 尽 可 能 地 高 效 ， 程 序 必须 尽 可 能 地 增加 每 次 检查 
所 能 处 理 的 二 进 制 位 的 数量 ， 从 而 减少 检查 操作 执行 的 次 数 。 


22.4.2” 二进制 位 统计 算法 (2) 杏 表 和 寞 法 
优化 检查 操作 的 一 个 办 法 是 使 用 查 表 法 : 
.对 于 一 个 有 限 集合 来 说 ， 集 合 元 素 的 排列 方式 是 有 限 的 。 


:而 对 于 一 个 有 限 长 度 的 位 数组 来 说 ， 它 能 表示 的 二 进 制 位 排列 也 
是 有 限 的 。 


根据 这 个 原理 ， 我 们 可 以 创建 一 个 表 ， 表 的 键 为 某 种 排列 的 位 数 
组 ， 而 表 的 值 则 是 相应 位 数组 中 ， 值 为 1 的 二 进 制 位 的 数量 。 


创建 了 这 种 表 之 后 ， 我 们 惑 可 以 根据 输入 的 位 数组 进行 得 表 ， 在 无 
须 对 位 数组 的 每 个 位 进行 检查 的 情况 下 ， 直 接 知道 这 个 位 数组 包含 了 多 
少 个 值 为 1 的 三 进 制 位 。 

举 个 例子 ， 对 于 8 位 长 的 位 数组 来 说 ， 我 们 可 以 创建 表格 22-1， 通 
过 这 个 表格 ,我们 可 以 一 次 从 位 数组 中 读 入 8 个 位 ， 然 后 根据 这 8 个 位 的 
值 进行 但 表 ， 和 直接 知道 这 个 值 包 含 了 多 少 个 值 为 1 的 位 。 


表 22-1 可 以 快速 检查 8 位 长 的 位 数组 包含 多 少 个 1 














键 ( 位 数组 ) 值 ( 值 为 1 的 位 数量 ) 


0000 0000 0 
0000 0001 ] 
0000 0010 ] 
0000 0011 2 
0000 0100 1 
0000 0101 2 
0000 0110 2 
0000 0111 3 
1301 J 
1111 1110 
TE AAT 8 





通过 使 用 表 22-1， 我 们 只 需 执行 一 次 得 表 操 作 ， 就 可 以 检查 8 个 二 
进 制 位 ， 和 之 前 介绍 的 过 历 算法 相 比 ， 碍 表 法 的 效率 提升 了 8 倍 : 


.以 100MB=800000000bit 〈 八 亿 位 ) 来 计算 ， 使 用 查 表 法 处 理 长 度 
为 100MB 的 位 数组 需要 执行 查 表 操 作 一 亿 次 。 


:而 对 于 500MB 长 的 位 数组 来 说 ， 使 用 得 表 法 处 理 该 位 数组 需要 执 
行 五 亿 次 碍 表 操 作 。 





如 条 我 们 创建 一 个 更 大 的 表 的 话 ， 那 么 每 次 得 表 所 能 处 理 的 位 就 会 
更 多 ， 从 而 减少 得 表 操 作 执行 的 次 数 : 


:如 果 我 们 将 表 键 的 大 小 扩展 为 16 位 ， 那 么 每 次 查 表 就 可 以 处 理 16 
个 二 进 制 位 ， 检 查 100MB 长 的 二 进 制 位 只 需要 五 千 万 次 查 表 ， 检 碍 
500MB 长 的 三 进 制 位 只 需要 两 亿 五 干 万 次 查 表 。 


:如 果 我 们 将 表 键 的 大 小 扩展 为 32 位 ， 那 么 每 次 查 表 就 可 以 处 理 32 
个 三 进 制 位 ， 检 查 100MB 长 的 三 进 制 位 只 需要 两 干 五 百 万 次 查 表 ， 检 查 
500MB 长 的 二 进 制 位 只 需要 一 亿 两 和 五 百 万 次 查 表 。 


初 看 起 来 ， 只 要 我 们 创建 一 个 足够 大 的 表 ， 那 么 统计 工作 就 可 以 轻 
易 地 完成 ， 但 这 个 问题 实际 上 并 没有 那么 简单 ， 因 为 得 表 法 的 实际 效果 
会 受到 内 存 和 缓存 两 方面 因素 的 限制 : 


-因为 得 表 法 是 典型 的 空间 换 时 间 策 略 ， 算 法 在 计算 方面 节约 的 时 
间 是 通过 花费 额外 的 内 存 换取 而 来 的 ， 亨 约 的 时 间 越 多 ， 花 费 的 内 存 就 
越 大 。 对 于 我 们 这 里 讨论 的 统计 二 进 制 位 的 问题 来 说 ， 创 建 键 长 为 8 位 
的 表 仅 需 数 百 个 字 节 ， 创 建 键 长 为 16 位 的 表 也 仅 需 数 百 个 KB， 但 创建 
键 长 为 32 位 的 表 却 需 要 十 多 个 GB。 在 实际 中 ， 服 务 器 只 可 能 接受 数 百 
个 字 节 或 者 数 百 KB 的 内 存 消耗 。 


-除了 内 存 大 小 的 问题 之 外 ， 碍 表 法 的 效果 还 会 受到 CPU 缓存 的 限 
制 : 对 于 固定 大 小 的 CPU 缓存 来 次 ， 创 建 的 表格 越 大 ，CPU 缓 存 所 能 保 
存 的 内 容 相 比 整 个 表格 的 比例 就 越 少 ， 俘 表 时 出 现 缓存 不 命中 (cache 
miss) 的 情况 惑 会 越 高 ， 绥 存 的 换 入 和 换 出 操作 融会 越 频 楷 ， 最 终 影响 
查 表 法 的 实际 效率 。 


由 于 以 上 列举 的 两 个 原因 ， 我 们 可 以 得 出 结论 ， 查 表 法 是 一 种 比 人 过 
历 算 法 更 好 的 统计 办 法 ， 但 受 限 于 得 表 法 市 来 的 内 存 压 力 ， 以 及 缓存 不 
命中 可 能 带 来 的 影响 ， 我 们 只 能 考虑 创建 键 长 为 8 位 或 者 键 长 为 16 位 的 
0 00 
JE 个 同 。 


为 了 高 效 地 实现 BITCOUNT 命 令 ， 我 们 需要 一 种 不 会 带 来 内 存 压 
力 、 并 且 可 以 在 一 次 检查 中 统计 多 个 二 进 制 位 的 算法 ， 接 下 来 要 介绍 的 
variable-precision SWAR 算 法 就 是 这 样 一 种 算法 。 












































22.4.3 二进制 位 统计 算法 (3) : variable-precision SWAR 算 
全 


BITCOUNT 命 令 要 解决 的 问题 一 ”统计 一 个 位 数组 中 非 0 二 进 制 位 
的 数量 ， 在 数学 上 被 称 为 “计算 汉 明 重量 (Hamming Weight) ”。 


因为 汉 明 重量 经 常 被 用 于 信息 论 、 编 码 理论 和 密码 学 ， 所 以 研究 人 
员 针 对 计算 汉 明 重量 开发 了 多 种 不 同 的 算法 ， 一 些 处 理 器 甚至 直接 带 有 
计算 汉 明 重量 的 指令 ， 而 对 于 不 具备 这 种 特殊 指令 的 普通 处 理 器 来 说 ， 
目前 已 知 效率 最 好 的 通用 算法 为 variable-precision SWAR 算 法 ， 该 算法 
通过 一 系列 位 移 和 位 运算 操作 ， 可 以 在 常数 时 间 内 计算 多 个 字 节 的 汉 明 
重量 ， 并 且 不 需要 使 用 任何 额外 的 内 存 。 


以 下 是 一 个 处 理 32 位 长 度 位 数组 的 variable-precision ”SWAR 算 法 的 
实现 : 




















Uint32_t swar(uint32 t i) { 
// 
步骤 1 


& 0x55555555) + ((i >> 1) & 9x55555555) ; 


& 0x33333333) + ((i >> 2) & 0x33333333); 





(i 

( 宣 
i = (i & OxOFOFOFOF) + ((i >> 4) & 9x9F9F9F9F) 
步骤 4 

于 过 这 

urn 


(Ox01010101) >> 24); 
ret > 


} 





以 下 是 调用 swar (bitarray) 的 执行 步骤 : 


-步骤 1 计算 出 的 值 i 的 二 进 制 表示 可 以 按 每 两 个 二 进 制 位 为 一 组 进行 
分 组 ， 各 组 的 十 进 制 表 示 束 是 该 组 的 汉 明 重量 。 


-步骤 2 计算 出 的 值 i 的 二 进 制 表示 可 以 按 每 四 个 二 进 制 位 为 一 组 进行 
分 组 ， 各 组 的 十 进 制 表 示 束 是 该 组 的 汉 明 重量 。 


-步骤 3 计算 出 的 值 i 的 二 进 制 表示 可 以 按 每 八 个 二 进 制 位 为 一 组 进行 
分 组 ， 各 组 的 十 进 制 表 示 束 是 该 组 的 汉 明 重量 。 


` 步 又 4 的 i*0x01010101 语 句 计 算出 bitarray 的 汉 明 重量 并 记录 在 二 进 
制 位 的 最 高 八 位 ， 而 >>24 语 句 则 通过 右 移 运 算 ， 将 bitarray 的 汉 明 重量 





移动 到 最 低 八 位 ， 得 出 的 结果 就 是 bitarray 的 汉 明 重量 。 


举 个 例子 ， 对 于 调用 swar (0x3A70F21B) ， 程 序 在 第 一 步 将 计算 
出 值 0x2560A116， 这 个 值 的 每 两 个 二 进 制 位 的 十 进 制 表 示 记 录 了 
0x3A70F21B 每 两 个 二 进 制 位 的 汉 明 重量 ， 如 表 22-2 所 示 。 


表 22-2 在 对 二 进 制 进行 两 位 分 组 下 ，0x3A70F21B 的 汉 明 重量 











Ox3A70F21 






之 后 ， 程 序 在 第 二 步 将 计算 出 值 0x22304113， 这 个 值 的 每 四 个 二 进 
0 0 0 0 如 
22-3 所 示 。 


Ox2560A116 


汉 明 重量 


表 22-3 ”在 对 二 进 制 进行 四 位 分 组 下 ，0x3A70F21B 的 汉 明 重量 










分 组 
Tr 
ms mm | mm mm mm 
Ta 


接 下 来 ， 程 序 在 第 三 步 将 计算 出 值 0x4030504， 这 个 值 的 每 八 个 二 
进 制 位 的 十 进 制 表 示 记 录 了 0x3A70F21B 每 八 个 二 进 制 位 的 汉 明 重量 ， 
如 表 22-4 所 示 。 


表 22-4 在 对 二 进 制 进行 八 位 分 组 下 ，0x3A70F21B 的 汉 明 重量 




















0x3A70F21B O0011011 


分 组 


在 第 四 步 ， 程 序 首先 计算 0x4030504*x0x01010101=0x100c0904， 将 
汉 明 重量 聚集 到 二 进 制 位 的 最 高 八 位 ， 如 表 22-5 所 示 。 


表 22-5 0x3A70F21B 的 汉 明 重量 聚集 在 0x100c0904 的 最 高 八 位 


明王 量 天 用人 于 用人 


之 后 程序 计算 0x100c0904 >> 24， 将 汉 明 重量 移动 到 低 八 位 ， 最 终 
得 出 值 0x10， 也 即 是 十 进 制 值 16， 这 个 值 就 是 0x3A70F21B 的 汉 明 重 
量 ， 如 表 22-6 所 示 。 


表 22-6 ”进行 移 位 之 后 ，0x3A70F21B 的 汉 明 重量 


什 2 和 4 位 至 31 位 16 至 23 位 8 至 15 位 0 至 7 位 


swar 函 数 每 次 执行 可 以 计算 32 个 二 进 制 位 的 汉 明 重量 ， 它 比 之 前 介 
绍 的 过 历 算法 要 快 32 倍 ， 比 键 长 为 8 位 的 但 表 法 快 4 倍 ， 比 键 长 为 16 位 的 
碍 表 法 快 2 倍 ， 并 且 因 为 swar 函 数 是 单纯 的 计算 操作 ， 所 以 它 无 须 像 奉 
表 法 那样 ， 使 用 额外 的 内 存 。 


胃 外 ， 因 为 swar 函 数 是 一 个 第 数 复杂 度 的 操作 ， 所 以 我 们 可 以 按照 


Ox4030504 00000100 


前 























自己 的 需要 ， 在 一 次 循环 中 多 次 执行 swar， 从 而 按 倍数 提升 计算 汉 明 重 
量 的 效率 : 

例如， 如 果 我 们 在 一 次 循环 中 调用 两 次 swar 函 数 ， 那 么 计算 汉 明 
重量 的 效率 就 从 之 前 的 一 次 循环 计算 32 位 提升 到 了 一 次 循环 计算 64 位 。 

.又 例如 ， 如 果 我 们 在 一 次 循环 中 调用 四 次 swar 函 数 ， 那 么 一 次 循 
环 就 可 以 计算 128 个 二 进 制 位 的 汉 明 重量 ， 这 比 每 次 循环 只 调用 一 次 
swar 函 数 要 快 四 倍 ! 

当然 ， 在 一 个 循环 里 执行 多 个 swar 调 用 这 种 优化 方式 是 有 极限 的 : 


一 旦 循环 中 处 理 的 位 数组 的 大 小 超过 了 缓存 的 大 小 ， 这 种 优化 的 效果 区 
会 降低 并 最 终 消 失 。 


22.4.4 二进制 位 统计 算法 (4) : Redis 的 实现 


BITCOUNT 命 令 的 实现 用 到 了 得 表 和 variable-precisionSWAR 两 种 算 
法 : 

. 查 表 算 法 使 用 键 长 为 8 位 的 表 ， 表 中 记录 了 从 0000 0000 到 1111 
1111 在 内 的 所 有 二 进 制 位 的 汉 明 重量 。 


.至 于 variable-precision SWAR 算 法 方面 ，BITCOUNT 命 令 在 每 次 循 
环 中 载 入 128 个 二 进 制 位 ， 然 后 调用 四 次 32 位 variable-precision SWAR 算 
法 来 计算 这 128 个 二 进 制 位 的 汉 明 重量 。 


在 执行 BITCOUNT 命 令 时 ， 程 序 会 根据 未 处 理 的 二 进 制 位 的 数量 来 
决定 使 用 那 种 算法 : 


:如 果 未 处 理 的 二 进 制 位 的 数量 大 于 等 于 128 位 ， 那 么 程序 使 用 
variable-precision SWAR 算 法 来 计算 二 进 制 位 的 汉 明 重量 。 


如果 未 处 理 的 二 进 制 位 的 数量 小 于 128 位 ， 那 么 程序 使 用 查 表 算 法 
来 计算 二 进 制 位 的 汉 明 重量 。 


以 下 伪 代 码 展示 了 BITCOUNT 命 令 的 实现 原理 : 











# 
-个 表 ， 记 录 了 所 有 八 位 长 位 数组 的 汉 明 重量 





昌 序 将 8 


序 和气 
位 长 的 位 数组 转换 成 无 符号 问 数 ， 并 在 表 中 进行 索引 
# 








例如 ， 对 于 输入 6600 0011 
， 程 序 将 二 进 制 转换 为 无 符号 整数 3 
# 


然后 取出 weight_in_byte[3] 








就 是 9900 0611 

的 汉 明 重量 

welght Ln byters [9 L742 T7228] 
def BITCOUNT(bits): 


# 

计算 位 数组 包含 了 多 少 个 二 进 制 位 
count = count_bit(bits) 
# 

初始 化 汉 明 重量 为 零 
Worght = 0 


人 处 理 的 二 进 制 位 大 于 等 于 128 
位 




















那么 使 variable-precision SWAR 
算法 来 处 理 
while count >= 128: 

# 


























， 每 个 调用 计算 32 
二 进 制 位 的 汉 明 1 重量 











这 汗 





关 : 


注意 : ps [i241 
的 索引 j 
是 不 包含 在 取 值 范围 之 内 的 
weight += swar(bits[0:32]) 
weight += swar(bits[32:64]) 
weight += swar(bits[64:96]) 
weight += swar(bits[96:128]) 


# 
移动 指针 ， 略 过 已 处 理 的 位 ， 指 向 未 处 理 的 位 
bits = bits[128:] 





n 
TH 











一 
减少 未 处 理 位 的 长 度 
count -= 128 


一 
如 果 执 行 到 这 里 ， 说 明 未 处 理 的 位 数量 不 足 128 
位 











枯 
那么 使 用 查 表 法 来 计算 汉 明 重量 


while count : 











将 8 
个 位 转换 成 无 符号 整数 ， 作 为 查 表 的 索引 〈 键 ) 

index = bits_to_unsigned_int(bits[0:8]) 
weight += weight_in_byte[index] 





# 
移动 指针 ， 略 过 已 处 理 的 位 ， 指 向 未 处 理 的 位 
bits = bits[8:] 


# 
减少 未 处 理 位 的 长 度 
count -= 8 


计 算 尖 和 ， 返回 输入 二 进 制 位 的 汉 明 重 


return weight 





地 





这 个 BITCOUNT 实 现 的 算法 复杂 度 为 O0 Cn) ， 其 中 n 为 输入 二 进 制 
位 的 数量 。 


更 具体 一 点 ， 我 们 可 以 用 以 下 公式 来 计算 BITCOUNT 命 令 在 处 理 长 
站 计 科 入 和 时 命令 中 的 两 个 循环 需要 执行 的 次 数 : 


:第 一 个 循环 的 执行 次 数 可 以 用 公式 loop ,=n:128」 计 算得 出 。 
:第 二 个 循环 的 执行 次 数 可 以 用 公式 loop ,=n mod 128 计 算得 出 。 


以 100MB=800000000bit 来 计算 ，BITCOUNTI 命 令 处 理 一 个 L00MB 


长 的 位 数组 共 需 要 执行 第 一 个 循环 六 百 二 十 五 万 次 ， 第 二 个 循环 零 次 。 
以 500MB=4000000000bit 来 计算 ，BITCOUNT 命 令 处 理 一 个 500MB 长 的 
位 数组 共 需 要 执行 第 一 个 循环 三 千 一 百 二 十 五 万 次 ， 第 二 个 循环 零 次 。 


通过 使 用 更 好 的 算法 ， 我 们 将 计算 100MB 和 500MB 长 的 二 进 制 位 所 
需 的 循环 次 数 从 最 开始 使 用 遍历 算法 时 的 数 亿 甚至 数 十 亿 次 减少 到 了 数 
百 万 次 和 数 千 万 次 。 


22.5 BITOP 命 令 的 实现 

因为 C 语 言 直接 支持 对 字 节 执行 逻辑 与 (&) 、 逻 辑 或 (|) 、 还 辑 
异 或 (^) 和 逻辑 非 (~) 操作 ， 所 以 BITOP 命 令 的 AND、OR、XOR 和 
NOT 四 个 操作 都 是 直接 基于 这 些 罗 辑 操 作 实 现 的 : 


.在 执行 BITOP AND 命令 时 ， 程 序 用 & 操 作 计 算出 所 有 输入 二 进 制 
位 的 逻辑 与 结果 ， 然 后 保存 在 指定 的 键 上 面 。 


-在 执行 BITOP OR 命 令 时 ， 程 序 用 | 操作 计算 出 所 有 输入 二 进 制 位 的 
逻辑 或 结 末 ， 然 后 保存 在 指定 的 键 上 面 。 


-在 执行 BITOP XOR 命 令 时 ， 程 序 用 ^ 操 作 计 算出 所 有 输入 二 进 制 位 
的 逻辑 异 或 结果 ， 然 后 保存 在 指定 的 键 上 面 。 


.在 执行 BITOP NOT 命 令 时 ， 程 序 用 ~ 操作 计算 出 输入 二 进 制 位 的 逻 
辑 非 结果 ， 然 后 保存 在 指定 的 键 上 面 。 


举 个 例子 ， 假 设 客 户 端 执行 命令 : 








BITOP AND result x y 





其 中 ， 键 x 保存 的 位 数组 如 图 22-18 所 示 ， 而 键 y 保 存 的 位 数组 如 图 
22-19 所 示 ，BITOP 命 令 将 执行 以 下 操作 : 


加 回回 回回 加 加 可 
本 回回 回回 回回 回避 


sur | | nln | ll 
ut | | i | 


图 22-18 ” 键 x 所 保存 的 位 数组 








图 22-19 ” 键 y 所 保存 的 位 数组 
1) 创建 一 个 空白 的 位 数组 value， 用 于 保存 AND 操 作 的 结果 。 


2) 对 两 个 位 数组 的 第 一 个 字 节 执行 buf[0] & buf[0] 操 作 ， 并 将 结果 


保存 到 value[0] 字 节 。 


3) 对 两 个 位 数组 的 第 二 个 字 节 执行 buf[1] & buf[1] 操 作 ， 并 将 结 
保存 到 value[1] 字 节 。 


4) 对 两 个 位 数组 的 第 三 个 字 节 执行 buf[2] & buf[2] 操 作 ， 并 将 结果 
保存 到 value[2] 字 节 。 


5) 经 过 前 面 的 三 次 逻辑 与 操作 ， 程 序 得 到 了 图 22-20 所 示 的 计算 结 
果 ， 并 将 它 保存 在 键 result 上 面 。 


加 回回 回回 加 加 加 
四 回 口 加 回回 加 可口 











加 回回 回 加 回回 加 加 
oro [ooo To To foo 


图 22-20” 键 x 和 键 y 执 行 BITOP AND 命 令 产 生 的 结 





BITOP OR、BITOP XOR、BITOP NOT 命 令 的 执行 过 程 和 这 里 列 出 
的 BITOP AND 的 执行 过 程 类 似 。 


为 BITOP AND、BITOP OR、BITOP XOR 三 个 命令 可 以 接受 多 个 





位 数组 作为 输入 ， 程 序 需 要 遍历 输入 的 每 个 位 数组 的 每 个 字 节 来 进行 计 
算 ， 所 以 这 些 命令 的 复杂 度 为 O (n2) ; 与 此 相反 ， 因 为 BITOP NOT 命 
令 只 接受 一 个 位 数组 输入 ， 所 以 它 的 复杂 度 为 O Cn) 。 


22.6 重点 回顾 

.Redis 使 用 SDS 来 保存 位 数组 。 

.SDS 使 用 逆序 来 保存 位 数组 ， 这 种 保存 顺序 简化 了 SETBIT 命 令 的 
实现 ， 使 得 SETBIT 命 令 可 以 在 不 移动 现 有 二 进 制 位 的 情况 下 ， 对 位 数 
组 进行 空间 扩展 。 


.BITCOUNT 命 令 使 用 了 和 碍 表 算 法 和 variable-precision SWAR 算 法 来 
优化 命令 的 执行 效率 。 


BITOP 命 令 的 所 有 操作 都 使 用 C 语 言 内 置 的 位 操作 来 实现 。 





22.7 参考 资料 


StackOverflow 网 站 上 的 一 个 帖子 对 Hamming Weight 主 题 进行 了 讨 
论 ， 并 给 出 了 有 用 的 参考 信息 : 
http://stackoverflow.com/questions/109023/how-to-count-the-number-of-set- 
bits-in-a-32-bit-integer。 

.博客 文章 《Counting The Number Of Set Bits In An Integer》 给 出 了 
variable-precision SWAR 算 法 的 介绍 : 
http://yesteapea.wordpress.com/2013/03/03/counting-the-number-of-set-bits- 
in-an-integer/。 





第 23 章 ” 慢 查 询 日 志 


Redis 的 慢 查 询 日 志 功 能 用 于 记录 执行 时 间 超 过 给 定时 长 的 命令 请 
求 ， 用 户 可 以 通过 这 个 功能 产生 的 日 志 来 监视 和 优化 查询 速度 。 


服务 器 配置 有 两 个 和 慢 查 询 日 志 相关 的 选项 : 


:slowlog-log-slower-than 选 项 指定 执行 时 间 超 过 多 少 微 秒 (1 秒 等 于 1 
000 000 微 秒 ) 的 命令 请 求 会 被 记录 到 日 志 上 。 


举 个 例子 ， 如 果 这 个 选项 的 值 为 100， 那 么 执行 时 间 超 过 100 微 秒 的 
命令 就 会 被 记录 到 慢 查 询 日 志 ; 如 果 这 个 选项 的 值 为 500， 那 么 执行 时 
间 超 过 500 微 秒 的 命令 就 会 被 记录 到 慢 查 询 日 志 。 


.Slowlog-max-len 选 项 指定 服务 器 最 多 保存 多 少 条 慢 碍 询 日 志 。 


服务 器 使 用 先进 先 出 的 方式 保存 多 条 慢 得 询 日 志 ， 当 服务 器 存储 的 
慢 查 询 日 志 数 量 等 于 slowlog-max-len 选 项 的 值 时 ， 服 务 器 在 添加 一 条 新 
的 慢 碍 询 日 志 之 前 ， 会 先 将 最 旧 的 一 条 慢 碍 询 日 志 删 除 。 


举 个 例子 ， 如 果 服 务 器 slowlog-max-len 的 值 为 100， 并 且 假 设 服务 
器 已 经 储存 了 100 条 慢 碍 询 日 志 ， 那 么 如 果 服 务 器 打算 添加 一 条 新 日 志 
的 语 ， 它 束 必须 先 删 除 目 前 保存 的 最 旧 的 那 条 日 志 ， 然 后 再 添加 新 日 
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我 们 来 看 一 个 慢 查 询 日 志 功 能 的 例子 ， 首 先 用 CONFIG SET 命令 将 
slowlog-log-slower-than 选 项 的 值 设 为 0 微 秒 ， 这 样 Redis 服 务 器 执行 的 任 
何 命令 都 会 被 记录 到 慢 碍 询 日 志 中 ， 接 着 将 slowlog-max-len 选 项 的 值 设 
为 5， 让 服务 器 最 多 只 保存 5 条 慢 碍 询 日 志 : 














redis> CONFIG SET Slowlog-1og-Slower-than 0 
OK 

redis> CONFIG SET slowlog-max-len 5 

OK 





接着 ， 我 们 用 客户 端 发 送 几 条 命令 请 求 : 





redis> SET msg "hello world" 


OK 

redis> SET number 10086 

OK 

redis> SET database "Redis" 
OK 








然后 使 用 SLOWLOG GET 命 令 查看 服务 器 所 保存 的 慢 查 询 日 志 : 





redis> SLOWLOG GET 
1) 1) 
(integer 


) 4 # 
日 志 的 唯一 标识 符 (uid 
) 


2) (integer) 1378781447 # 
命令 执行 时 的 UNIX 
时 间 惟 
3) (integer) 13 # 
i ,以 微 秒 计算 
4) 1) " # 
命令 员 及 负 令 做 
2) "database" 
3) "Redis" 
2) 1) (integer) 3 
2) (integer) 1378781439 
3) (integer) 10 
4) 1) "SET" 
2) "number" 
3) "10086" 
3) 1) (integer) 2 
2) (integer) 1378781436 
3) (integer) 18 
4) 1) "SET" 
2) "msg" 
3) "hello world" 
(integer) 1 
2) (integer) 1378781425 
3) (integer) 11 
4) 1) "CONFIG" 
2) "SET" 
3) "slowlog-max-len" 
4) "5" 
(integer) 0 
) (integer) 1378781415 
3) (integer) 53 
) 1) "CONFIG" 
2) "SET" 
32 jos 10g-slower-than" 
4) " 


4 


= 
上 
— 


5 


— 
上 
— 





如 果 这 时 再 执行 一 条 SLOWLOG GET 命 令 ， 那 么 我 们 将 看 到 ， 上 一 
次 执行 的 SLOWLOG ”GET 命令 已 经 被 记录 到 了 慢 查 询 日 志 中 ， 而 最 旧 
的 、ID 为 0 的 慢 查 询 日 志 已 经 被 删除 ， 服 务 器 的 慢 查 询 日 志 数 量 仍 然 为 5 


条 : 














redis> SLOWLOG GET 
1) 1) (integer) 5 
2) (integer) L78781534 
3 (integer) 6 
4) 1)' ov en 
2) "GET" 
2) 1) (integer) 4 
2) (integer) 1378781447 
3) (integer) 13 
4) 1) "SET" 
2) "database" 
3) "Redis" 
3) 1) (integer) 3 
2) (integer) 1378781439 
3) (integer) 10 
4) 1) "SET" 
2) "number" 
3) "10086" 
(integer) 2 
2) (integer) 1378781436 


4 


= 
上 
— 


5) 


(integer) 18 

1) "SET" 

2) "msgn 

3) "hello world" 
(integer) 1 
(integer) 1378781425 
(integer) 11 

1) "CONFIG" 

2) "SET" 

3) "slowlog-max-len" 
4) "5" 





23.1 慢 查 询 记录 的 保存 
服务 器 状态 中 包含 了 几 个 和 慢 查 询 日 志 功 能 有 关 的 属性 : 





struct redisServer { 
BE 
PE 
下 一 条 慢 查 询 日 志 的 ID 
long long slowlog_entry_id; 
// 
保存 了 所 有 慢 查询 日 志 的 链表 
; 
服务 器 多 村 slowlog 1og-slower-than 
选项 的 值 
long long slowlog_log_slower_than; 
// 
服务 器 配置 slowlog-max-len 
选项 的 值 
unsigned long slowlog max_len; 
WE ns 


}; 





slowlog_entry_id 属 性 的 初始 值 为 0， 每 当 创 建 一 条 新 的 慢 查 询 日 志 
时 ， 这 个 属性 的 值 就 会 用 作 新 日 志 的 id 值 ， 之 后 程序 会 对 这 个 属性 的 值 


增 一 。 





例如 ， 在 创建 第 一 条 慢 查 询 日 志 时 ，slowlog_entry_id 的 值 0 会 成 为 

第 一 条 慢 查 询 日 志 的 ID， 而 之 后 服务 器 会 对 这 个 属性 的 值 增 一 ， 当 服务 
器 再 创建 新 的 慢 查 询 日 志 的 时 候 ，slowlog_entry_id 的 值 1 就 会 成 为 第 二 
条 慢 得 询 日 志 的 ID， 然 后 服务 器 再 次 对 这 个 属性 的 值 增 一 ， 以 此 类 推 。 


slowlog 链 表 保 人 行 了 服务 此 中 的 所 有 慢 查 询 日 志 ， 链 表 中 的 每 个 节点 
都 保存 了 一 个 slowlogEntry 结 构 ， 每 个 slowlogEntry 结 构 代 表 一 条 慢 查 询 


DAN 























typedef struct slowlogEntry { 
唯一 标识 符 
long long id; 
命令 执行 时 的 时 间 ， 格 式 为 UNIX 
时 间 截 
time_t time; 
a 
执行 命令 消耗 的 时 间 ， 以 微 秒 为 单位 
long long duration; 
a 
命令 与 命令 参数 
robj **argv; 
Fed 
命令 与 命令 参数 的 数量 
int argc; 
} slowlogEntry; 


| | 








举 个 例子 ， 对 于 以 下 慢 碍 询 日 志 来 说 : 





1) (integer) 3 
2) (integer) 1378781439 
3) (integer) 10 


2) "number" 
3) "10086" 





图 23-1 展 示 的 就 是 该 日 志 所 对 应 的 slowlogEntry 结 构 。 
slowlogEntry 
pt 


1d 
3 
0 






time 
1378781439 
| 2 
| 


argc 
3 


图 23-2 展 示 了 服务 器 状态 中 和 慢 得 询 功能 有 关 的 属性 : 













Strlngobject |StringObject | StringObject 
"Er" "number" "10086" 





图 23-1 ”slowlogEntry 结 构 示例 















redisServer 


slowlog entry 1id 


slowlog log slower than 
0 
Slowlog max len 
9 


argc 
4 
图 23-2 ”redisServer 结 构 示例 


slowlog_entry_id 的 值 为 6， 表 示 服 务 器 下 条 慢 查 询 日 志 的 id 值 将 为 


slowlogEntry 
1 


1d 
1 
] 







time 
1378781425 


wea 
] 














slowlog 链 表 包 合 了 id 为 5 至 1 的 慢 奋 询 日 志 ， 最 新 的 5 号 日 志 排 在 链 
表 的 表 头 ， 而 最 旧 的 1 号 日 志 排 在 链表 的 表 尾 ， 这 表明 slowlog 链 表 是 使 
用 插入 到 表 尖 的 方式 来 添加 新 日 志 的 。 


“slowlog_log_slower_than 记 录 了 服务 器 配 置 slowlog-log-slower-than 
选项 的 值 0， 表 示 任 何 执 行 时 间 超 过 0 微 秒 的 命令 都 会 被 慢 查 询 日 志 记 
录 。 




















slowlog-max-len 属 性 记录 了 服务 器 配置 slowlog-max-len 选 项 的 值 
5， 表 示 服 务 器 最 多 储存 五 条 慢 查 询 日 志 。 


个 


、_/ 注 意 








因为 版 面 空 间 不 足 ， 所 以 图 23-2 展 示 的 各 个 slowlogEntry 结 构 都 省 
上 略 了 argv 数 组 。 





23.2” 慢 碍 询 日 志 的 阅览 和 删除 


et 
代码 来 定义 查看 日 志 的 SLOWLOG GET 命 








def SLOWLOG_GET(number=None ) : 














户 没有 给 定 number 
人 








于 和 打印 服务 世人 的 全 部 慢 者 晶 志 
if number is 
number = SEOWL GG _LEN() 


遍历 服务 器 中 的 慢 查 询 日 志 
for log in redisServer.slowlog: 
if number <= 0: 





# 

打印 的 日 志 数量 已 经 足够 ， 跳 出 循环 
break 

LGR: 
# 

继续 打印 ， 将 计数 器 的 值 减 一 
number -= 


# 





打印 日 志 
printLog(1og) 





查看 日 志 数 量 的 SLOWLOG LEN 命 令 可 以 用 以 下 伪 代 码 来 定义 : 





def SLOWLOG_LEN(): 
# slowlog 

链表 的 长 度 就 是 慢 查 询 日 志 的 条 目 数 量 
return len(redisServer.slowlog) 








另外 ， 用 于 清除 所 有 慢 查 询 日 志 的 SLOWLOG RESET 命 令 可 以 用 以 
下 伪 代 码 来 定义 : 





def SLOWLOG_RESET(): 


人 遍历 服务 器 中 的 所 有 慢 查 询 日 志 
for log in redisServer.slowlog: 





# 
删除 日 志 
deleteLog(1og) 





23.3 ”添加 新 日 志 


在 每 次 执行 命令 的 之 前 和 之 后 ， 程 序 都 会 记录 微 秒 格式 的 当前 
UNIX 时 间 礁 ， 这 两 个 时 间 惟 之 间 的 差 就 是 服务 占 执 行 命令 所 耗费 的 时 
长 ， 服 务 器 会 将 这 个 时 长 作为 参数 之 一 传 给 slowlo gPushEntryIfNeeded 函 
数 ， 而 slowlogPushEntryIfNeeded 函 数 则 负责 检查 是 售 需 要 为 这 次 执行 的 
命令 创建 慢 碍 询 日 志 ， 以 下 伪 代 码 展 示 了 这 一 过 程 : 














# 
记录 执行 命令 前 的 时 间 
Oe = unixtime_now_in_us() 


执行 1 命令 


ou _command(argv, argc, client) 


记录 执行 1 命令 后 的 时 间 


en = unixtime_now_in_us() 


检查 是 否 需要 创建 新 的 慢 查 光志 志 
slowlogPushEntryIfNeeded(argv, argc, before-after) 





slowlogPushEntryIfNeeded 函 数 的 作用 有 两 个 : 

1) 检查 命令 的 执行 时 长 是 否 超 过 slowlog-log-slower-than 选 项 所 设 
置 的 时 间 ， 如 果 是 的 话 ， 就 为 命令 创建 一 个 新 的 日 志 ， 并 将 新 日 志 添 加 
到 slowlog 链 表 的 表 头 。 


2) 检查 慢 查 询 日 志 的 长 度 是 否 超 过 slowlog-max-len 选 项 所 设置 的 
长 度 ， 如 果 是 的 话 ， 那 么 将 多 出 来 的 日 志 从 slowlog 链 表 中 删除 掉 。 


以 下 是 slowlogPushEntryIfNeeded 函 数 的 实现 代码 : 








void slowlogPushEntryIfNeeded(robj **argv, int argc, long long duration) { 


Rh 未 开启 ， 直 接 返 回 
f (server.slowlog_ log_ slower_than < 0) return; 


条 折 和 时 间 相 服务员 时 的 上 限 ， 那 么 将 命令 添加 到 慢 查 询 日 志 
on 


ation >= server.slowlog log_slower_than) 


新 日 志 添 加 他 能 表 表 类 
listAddNodeHead(server.slowlog, slowlogCreateEntry(argv,argc, duration)); 


如 果 和 上 数量 过 多 ， 那 么 进行 删除 
while (listLength(server.slowlog) > server.slowlog max_len) 
listDelNode(server.slowlog,1istLast(server.slowlog)); 


} 





函数 中 的 大 部 分 代码 我 们 已 经 介绍 过 了 ， 唯 一 需要 说 明 的 是 
slowlogCreateEntry 函 数 : 该 函 疾 根 据 传 入 的 参数 ， 创建 一 个 新 的 慢 查 询 


志 ， 并 将 redisServer.slowlog_entry_id 的 值 增 1。 


举 个 例子 ， 假发 服务 器 当 前 保存 的 慢 查 询 日 志 如 图 23-2 所 示 ， 如 果 
我 们 执行 以 下 命令 : 








redis> EXPIRE msg 10086 
(integer) 1 





服务 器 在 执行 完 这 个 EXPIRE 命 令 之 后 ， 就 会 调用 
slowlogPushFntryIfNeeded 函 数 ， 函 数 将 为 EXPIRE 命 令 创 建 一 条 id 为 6 的 
慢 碍 询 日 志 ， 并 将 这 条 新 日 志 添 加 到 slowlog 链 表 的 表 头 ， 如 图 23-3 所 


不 。 
slowlogEntry slowlogEntry 


1d 
6 
9 
注意 ， 除 了 slowlog 链 表 发 生 了 变化 之 外 ，slowlog_entry_id 的 值 也 从 
询 日 志 数 目 为 5 条 ， 而 服务 器 目前 保存 的 慢 碍 询 日 志 数 目 为 6 条 ， 于 是 服 


time time 
1378800320 1378781425 
slowlog log slower than 
0 
argc 
| 
6 变 为 7 了 。 
务 右 将 id 为 1 的 慢 郁 询 日 志 删 除 ， 让 服务 器 的 慢 公 询 日 忘 数 量 回 到 设 定 






















duration 
11 


argc 
4 








slowlog entry 1id 
| 
duration 
14 
slowlog max len 
图 23-3” EXPIRE 命令 执行 之 后 的 服务 器 状态 
之 后 ，slowlogPushEntryIfNeeded 消 数 发 现 ， 服 务 嚣 设 定 的 最 大 慢 查 

















好 的 5 条 。 
删除 操作 执行 之 后 的 服务 右 状 态 如 图 23-4 所 示 。 


EE 
6 
slowlog entry id 
7 本 time 
1378800320 
duration 
14 


slowlog 109 slower than 
argc 
3 


















SlowlogEntry 


time 
1378781436 













duration 
18 


argc 
3 


图 23-4 ”删除 id 为 1 的 慢 查 询 日 志 之 后 的 服务 器 状态 


0 


Slowlog max len 
9 












23.4 重点 回顾 
-Redis 的 慢 碍 询 日 志 功 能 用 于 记录 执行 时 间 超 过 指定 时 长 的 命令 。 
:Redis 服 务 器 将 所 有 的 慢 碍 询 日 志保 存在 服务 器 状态 的 slowlog 链 表 
中 ， 每 个 链表 节点 都 包含 一 个 slowlogEntry 结 构 ， 每 个 slowlogEntry 结 构 
代表 一 条 慢 查 询 日 志 。 
:打印 和 删除 慢 碍 询 日 志 可 以 通过 过 历 slowlog 链 表 来 完成 。 
slowlog 链 表 的 长 度 就 是 服务 左 所 保存 慢 碍 询 日 志 的 数量 。 


:新 的 慢 查 询 日 志 会 被 添加 到 slowlog 链 表 的 表 头 ， 如 果 日 志 的 数量 
超过 slowlog-max-len 选 项 的 值 ， 那 么 多 出 来 的 日 志 会 被 删除 。 














第 24 章 ”监视 器 


通过 执行 MONITOR 命 令 ， 客 户 端 可 以 将 自己 变 为 一 个 监视 器 ， 实 
时 地 接收 并 打印 出 服务 器 当前 处 理 的 命令 请 求 的 相关 信息 : 





redis> MONITOR 
OK 


1378822099.421623 [0 127.0.0.1:56604] "PING" 

1378822105.089572 [0 127.0.0.1:56604] "SET" "msg" "hello world" 
1378822109.036925 [0 127.0.0.1:56604] "SET" "number" "123" 

1378822140.649496 [0 127.0.0.1:56604] "SADD" "fruits" "Apple" "Banana" "Cherry" 
1378822154.117160 [0 127.0.0.1:56604] "EXPIRE" "msg" "10086" 

1378822257.329412 [0 127.0.0.1:56604] "KEYS" "*" 

1378822258.690131 [9 127.0.0.1:56604] "DBSIZE" 





每 当 一 个 客户 端 问 服务 器 发 送 一 条 命令 请 求 时 ， 服 务 器 除了 会 处 理 
这 条 命令 请 求 之 外 ， 还 会 将 关于 这 条 命令 请 求 的 信息 发 送 给 所 有 监视 
器 ， 如 图 24-1 所 示 。 
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图 24-1 命令 的 接收 和 信息 的 发 送 


24.1 ”成 为 监视 需 


发 送 MONITOR 命 令 可 以 让 一 个 普通 客户 端 变 为 一 个 监视 器 ， 该 命 
令 的 实现 原理 可 以 用 以 下 伪 代 码 来 实现 : 





def MONITOR(): 


打开 客户 端的 监视 器 标志 
client.flags |= REDIS MONITOR 


# 
将 客户 端 添 加 到 服务 器 状态 的 monitors 
链表 的 末尾 
server .monitors.append(client) 
# 


向 客户 端 返回 OK 
send_reply("OK") 





举 个 例子 ， 如 果 客 户 端 c10086 癌 服务 器 发 送 MONITOR 命 令 ， 那 么 
这 个 客户 端的 REDIS_MONITOR 标 志 会 被 打开 ， 并 且 这 个 客户 端 本 身 会 
被 添加 到 monitors 链 表 的 表 尾 。 


假设 客户 端 c10086 发 送 MONITOR 命 令 之 前 ，monitors 链 表 的 状态 如 
图 24-2 所 示 ， 那 么 在 服务 器 执行 客户 端 c10086 发 送 的 MONITOR 命令 之 
后 ，monitors 链 表 将 被 更 新 为 图 24-3 所 示 的 状态 。 
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图 24-2 ”客户 端 c10086 执 行 MONITOR 命 令 之 前 的 monitors 链 表 
| i | 


图 24-3 ”客户 端 c10086 执 行 MONITOR 命 令 之 后 的 monitors 链 表 





















24.2” 回 监 视 器 发 送 命令 信息 


服务 器 在 每 次 处 理 命 令 请 求 之 前 ， 都 会 调用 replicationFeedMonitors 
函数 ， 由 这 个 函数 将 被 处 理 的 命令 请 求 的 相关 信息 发 送 给 各 个 监视 器 。 


以 下 是 replicationFeedMonitors 函 数 的 伪 代 码 定 义 ， 函 数 首先 根据 传 
入 的 参数 创建 信息 ， 然 后 将 信息 发 送 给 所 有 监视 器 : 








def replicationFeedMonitors(client, monitors, dbid, argv, argc): 
# 
根据 执行 命令 的 客户 端 、 当 前 数据 库 的 号 码 、 命 令 参数 、 命 令 参数 个 数 等 参数 
# 
创建 要 发 送 给 各 个 监视 器 的 信息 
msg = create_ message(client, dbid, argv, argc) 
# 
遍历 所 有 监视 器 
for monitor in monitors: 
# 
将 信息 发 送 给 监视 器 
send_message(monitor, msg) 





A 假设 服务 器 在 时 间 1378822257.329412， 根 据 IP 为 
127. 0.0.1、 并 口号 为 56604 的 客户 端 发 送 的 命令 请 求 ， 对 0 号 数据 库 执行 
命 和 那么 服务 器 将 创建 以 下 信息 : 








1378822257.329412 [8 127.0.0.1:56664] "KEYS" "*" 





如 果 服 务 嚣 monitors 链 表 的 当前 状态 如 图 24-3 所 示 ， 那 么 服务 器 会 


分 别 将 信息 发 送 给 c128、c256、c512 和 c10086 四 个 监视 器 ， 如 图 24-4 所 
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图 24-4 ”服务 占 将 信息 发 送 给 各 个 监视 器 


24.3 ”重点 回顾 


客户 端 可 以 通过 执行 MONITOR 命 令 ， 将 客户 端 转换 成 监视 器 ， 接 
收 并 打印 服务 器 处 理 的 每 个 命令 请 求 的 相关 信息 。 


: 当 一 个 客户 端 从 普通 客户 端 变 为 监视 器 时 ， 访 客户 端的 
REDIS_ MONITOR 标 识 会 被 打开 。 


:服务 器 将 所 有 监视 器 都 记录 在 monitors 链 表 中 。 


:每 次 处 理 命令 请 求 时 ， 服 务 器 都 会 过 历 monitors 链 表 ， 将 相关 信息 
发 送 给 监视 占 。 


